Din kollega sender dig et billede af en whiteboard-tavle fra et møde og beder dig "lige skrive det rent." Eller du sidder med en videooptagelse af en kundefremvisning og skal finde dét ene citat, chefen nævnte efter 38 minutter. Det er præcis den slags opgaver, der æder tid. Og det er præcis den slags opgaver, Gemini kan løse, fordi den forstår mere end bare tekst. Denne artikel giver dig konkrete eksempler på, hvordan du bruger Geminis evne til at analysere billeder, video og lyd i din arbejdsdag.
Indholdsfortegnelse
- Hvad betyder det, at Gemini er multimodal?
- Udtræk data fra billeder på sekunder
- Analyser video med AI uden at se det hele selv
- Lydanalyse: Lad Gemini lytte for dig
- Tre ting at huske, før du går i gang
- Kom godt i gang
Hvad betyder det, at Gemini er multimodal?
De fleste kender AI som "noget, man skriver til." Du taster en besked, og du får en besked tilbage. Gemini kan det samme, men den kan også modtage og forstå billeder, video og lydfiler. Det er det, der menes med multimodal AI. Tænk på det som forskellen mellem en kollega, du kun kan ringe til, og en kollega, du kan sende billeder, videoklip og lydfiler. Den sidste er markant mere nyttig, når opgaven ikke kan beskrives med ord alene.
Det er også derfor, Gemini spiller en central rolle i Googles samlede AI-økosystem. Den er ikke bare en chatbot. Den er en assistent, der kan kigge på det samme materiale som dig og hjælpe dig med at forstå det.
Udtræk data fra billeder på sekunder
AI-billedanalyse lyder måske avanceret, men i praksis handler det om noget meget jordnært: du tager et billede, uploader det til Gemini og stiller et spørgsmål.
Her er tre scenarier, der giver mening for de fleste:
Whiteboard-noter efter møder. Du fotograferer tavlen, uploader billedet og skriver:
"Skriv alle punkter fra dette whiteboard som en struktureret liste med overskrifter. Bevar den originale gruppering, hvis der er tegnet bokse eller pile."
Gemini læser håndskriften og leverer en ren tekst, du kan paste ind i jeres referat.
Fakturadata. En indkøbschef i en fødevarevirksomhed, der manuelt sammenligner leverandørtilbud, kan uploade billeder af trykte tilbud og bede Gemini:
"Udtræk leverandørnavn, varenummer, stykpris og leveringstid fra dette billede. Returner det som en tabel med kolonneoverskrifterne: Leverandør | Varenummer | Stykpris | Leveringstid."
I stedet for at taste 200 linjer ind manuelt, har du en tabel klar til Google Sheets på få minutter. Og apropos: Gemini kan arbejde med Sheets, så du kan bearbejde dataen videre med det samme.
Skærmbilleder fra systemer. Hvis du vil dokumentere en fejl i et internt system, kan du uploade et screenshot og skrive:
"Beskriv præcist, hvad der sker på dette skærmbillede. Hvilken fejlmeddelelse vises, og i hvilken del af systemet opstår den? Formulér beskrivelsen, så en IT-medarbejder kan reproducere fejlen."
Det sparer dig for at sidde og forklare, hvad du ser, med ord.
Analyser video med AI uden at se det hele selv

Det er her, Gemini virkelig begynder at spare dig tid. Du kan uploade en videofil eller pege på en YouTube-video og bede Gemini gennemgå indholdet for dig.
Forestil dig en projektleder i et rådgivende ingeniørfirma, der jonglerer otte samtidige projekter. Hver uge optages statusmøder på video. I stedet for at gense 45 minutter per projekt, uploader projektlederen videoen og skriver:
"Lav et referat af denne video struktureret i tre dele: 1) De tre vigtigste beslutninger der blev truffet, 2) Action points med ansvarlig person og deadline, 3) Uafklarede spørgsmål der kræver opfølgning."
Gemini gennemgår videoen, identificerer de relevante passager og leverer et struktureret referat. Det er ikke perfekt hver gang. Du skal stadig læse det igennem og justere. Men du går fra 45 minutters arbejde til 5 minutter.
Har du brug for et specifikt citat eller en præcis passage, kan du i stedet spørge:
"Fra hvilket tidspunkt i videoen taler de om budgetgodkendelse? Gengiv, hvad der bliver sagt."
Gemini peger på tidskoden og transskriberer passagen. Du behøver ikke spole frem og tilbage.
Denne funktion fungerer også med optagelser af kundeinterviews, præsentationer eller onboarding-videoer. Pointen er den samme: du slipper for at lede efter nålen i høstakken, fordi Gemini kan scanne hele videoen og give dig det relevante.
Lydanalyse: Lad Gemini lytte for dig
Gemini kan også håndtere lydfiler. Det gør lydanalyse relevant for alle, der arbejder med optagede samtaler, interviews eller møder.
En konkret brug vi hos Poulsen & Vinding selv har haft glæde af: upload af en lydoptagelse fra et kundemøde med prompten:
"Transskribér denne lydfil. Markér alle steder, hvor kunden nævner specifikke problemer, ønsker eller forbehold. Sæt disse passager i kursiv, så de er lette at finde."
Du får en udskrift med de vigtigste passager fremhævet. Det er langt hurtigere end at sidde med høretelefoner og notere undervejs.
Vil du gå et skridt videre og bruge transskriptionen aktivt, kan du følge op med:
"Baseret på transskriptionen: Hvad er kundens tre primære bekymringer? Formulér dem som punkter, jeg kan adressere i mit næste opkald."
Nu er du ikke bare færdig med at lytte. Du har allerede forberedt dit næste skridt.
Kombinerer du det med Gemini med Drev og Docs, kan transskriberingen lande direkte i et dokument, som hele teamet kan tilgå.
Tre ting at huske, før du går i gang
Multimodal AI er kraftfuld, men det kræver lidt omtanke.
- Kvaliteten af dit input bestemmer kvaliteten af dit output. Et sløret billede af et whiteboard giver et sløret resultat. Sørg for ordentlig belysning og opløsning. Lydoptagelser med meget baggrundsstøj giver upræcise transskriptioner.
- Vær specifik i din prompt. "Hvad ser du?" giver et vagt svar. "Udtræk alle tal og datoer fra dette billede og sæt dem i en tabel med kolonneoverskrifterne Dato og Beløb" giver noget brugbart. Jo mere præcist du beskriver det ønskede format, jo mindre skal du redigere bagefter.
- Tjek altid outputtet. Gemini er din hurtige praktikant, ikke din revisor. Især ved data fra billeder og lyd skal du verificere, at tallene stemmer. Arbejder du i en offentlig organisation, bør du læse om GDPR og datasikkerhed i Gemini, før du uploader følsomt materiale.
Kom godt i gang
Den nemmeste måde at lære det på er at prøve det med en reel opgave fra din egen hverdag. Tag et billede af næste mødes whiteboard. Upload et lydklip fra et kundeinterview. Start småt og mærk, hvor meget tid du faktisk sparer. Jo mere konkret opgaven er, jo mere konkret bliver Geminis svar.
Ofte stillede spørgsmål

Bruno Poulsen er partner i Poulsen & Vinding, et konsulenthus der hjælper danske virksomheder og styrelser med at tage generativ AI i brug i den daglige drift. Han er senior underviser hos Bigum&Co gennem 10+ år og har siden 2023 stået bag AI-implementeringer, foredrag og workshops for blandt andre Lægemiddelstyrelsen, GS1 Danmark, Bornholms Højskole og 30+ bornholmske SMV’er via Business Center Bornholm. Skriver om praktisk anvendelse af AI-værktøjer, prompt engineering og hvordan ledelser kommer i gang mandag morgen kl. 08.00.





