Hvad er multimodal prompting?

Multimodal prompting betyder, at du giver Claude flere typer input på én gang, fx tekst og billeder i samme besked. Claude "ser" billedet og kan svare på spørgsmål om indholdet, udtrække tekst, beskrive elementer eller analysere data direkte fra det visuelle.

Hvilke typer billeder kan Claude analysere?

Claude kan analysere alt fra grafer og diagrammer til screenshots, fotos af dokumenter og håndskrevne noter. Dog kan meget lille tekst og håndskrift med dårlig læsbarhed være en udfordring.

Hvordan får jeg de bedste svar, når jeg sender billeder til Claude?

Sørg for at din prompt har tre elementer: kontekst (hvad billedet er), opgave (hvad du vil have ud af analysen) og format (hvordan svaret skal se ud). Upload desuden i højest mulig opløsning og beskær billedet, så kun det relevante er med.

Multimodal prompting med Claude: Sådan bruger du billeder i dine prompts

Øvet Deep dive 8 min læsning Opdateret 16. jul 2026

Din kollega sender dig et screenshot af en fejlmeddelelse, en graf fra en kvartalsrapport eller et foto af en whiteboard-brainstorm. Du åbner billedet, kigger på det i ti sekunder og skriver så en lang forklaring i chatten. Hvad nu hvis du bare kunne sende billedet direkte til Claude og få præcis det svar, du har brug for? Det er præcis, hvad multimodal prompting gør muligt. Her får du konkrete teknikker til at kombinere tekst og billeder, så du får markant bedre svar ud af Claude. Artiklen er en del af vores Masterclass i Claude, hvor du kan dykke dybere ind i alle Claudes funktioner.

Hovedpointer

Multimodal prompting betyder, at du sender billeder og tekst sammen til Claude, så du slipper for at beskrive alt med ord. Tænk på det som at sende håndværkeren et billede i stedet for at forklare i telefonen.
En god multimodal prompt har tre elementer: kontekst (hvad billedet er), opgave (hvad du vil have ud af det) og format (hvordan svaret skal se ud).
Visuel AI prompting slår ren tekst, når du arbejder med data der allerede er visualiseret, kontekst der er svær at beskrive, eller visuelt materiale der skal kvalitetssikres.
Claude er ikke perfekt til alt visuelt. Meget lille tekst, ulæselig håndskrift og lav billedkvalitet kan give fejl. Upload i højest mulig opløsning og beskær, så kun det relevante er med.
Start småt: Find ét billede fra din arbejdsdag, brug en af de færdige prompts som skabelon, og sammenlign resultatet med det, du selv ville have lavet.

Indholdsfortegnelse

Hvad betyder "multimodal" i praksis?
Tre situationer hvor visuel AI prompting slår ren tekst
Sådan skriver du gode multimodale prompts
Fire færdige prompts du kan bruge i dag
Begrænsninger du skal kende
Kom godt i gang allerede i morgen

Hvad betyder "multimodal" i praksis?

Ordet lyder teknisk, men princippet er enkelt. "Multimodal" betyder bare, at du kan give Claude flere typer input på én gang. Tekst og billeder i samme besked. Tænk på det som forskellen mellem at ringe til en håndværker og beskrive problemet med ord, kontra at sende ham et billede af det utætte rør. Billedet giver kontekst, som ord alene sjældent fanger.

Claude billedanalyse fungerer ved, at du uploader et billede sammen med din tekstbesked. Claude "ser" billedet og kan svare på spørgsmål om indholdet, udtrække tekst, beskrive elementer eller analysere data direkte fra det visuelle. Det gælder alt fra grafer og diagrammer til screenshots, fotos af dokumenter og håndskrevne noter.

Det vigtige er, at billedet ikke bare er pynt. Det bliver en aktiv del af din prompt. Og det åbner for en helt anden type opgaveløsning.

Hvornår slår visuel AI prompting ren tekst?

Visuel AI prompting slår ren tekst i tre situationer: når data allerede er visualiseret (fx grafer), når konteksten er svær at beskrive med ord (fx screenshots eller whiteboards), og når du vil kvalitetssikre visuelt materiale (fx krydscheck af billeder mod tekst).

Når du sidder med data, der allerede er visualiseret

Forestil dig, at du er marketingansvarlig i en B2B-virksomhed og bruger to dage om ugen på kvartalsrapporter. Du har en graf fra Google Analytics, der viser trafikudviklingen de sidste 90 dage. I stedet for manuelt at aflæse tallene og skrive dem ind, uploader du bare grafen og skriver:

"Her er vores trafik de sidste 90 dage. Identificér de tre mest markante ændringer og giv mig en kort forklaring på, hvad der kan have forårsaget dem, baseret på tidspunkterne."

Claude analyserer grafen, peger på de relevante datapunkter og giver dig et udkast til den del af rapporten, der normalt tager en time. Det er visuel AI prompting i sin mest direkte form.

Når konteksten er svær at beskrive med ord

Screenshots af fejlmeddelelser, komplekse tabeller i PDF'er eller fotos af en whiteboard efter et strategimøde kræver mange ord at forklare. Med multimodal prompting springer du beskrivelsen over og går direkte til spørgsmålet. Har du brug for at udtrække data fra tunge PDF'er og grafer, har vi en hel guide til det.

Når du vil kvalitetssikre visuelt materiale

En ejendomsmægler, der bruger tre timer per boligfremvisning på dokumentation, kan uploade fotos af en bolig sammen med den eksisterende salgsopstilling og bede Claude identificere, om der er uoverensstemmelser mellem billederne og teksten. Det er en type krydscheck, der normalt kræver et ekstra par øjne.

Hvordan skriver du en god multimodal prompt til Claude?

En god multimodal prompt har tre elementer: kontekst (fortæl Claude hvad billedet er), opgave (vær specifik om hvad du vil have ud af analysen) og format (angiv hvordan svaret skal se ud). Uden disse tre ender du med et generisk svar.

Her er det, de fleste gør forkert: de uploader et billede og skriver "hvad ser du?" Det svarer til at sende en mail med emnelinjen "se vedhæftning" og ingen brødtekst. Claude giver dig et generisk svar, fordi du ikke har fortalt, hvad du leder efter.

Den gode multimodale prompt har tre elementer:

Kontekst: Fortæl Claude, hvad billedet er. "Dette er et screenshot af vores CRM-dashboard fra denne måned."
Opgave: Vær specifik om, hvad du vil have ud af analysen. "Identificér de tre kunder med lavest aktivitet."
Format: Angiv, hvordan svaret skal se ud. "Præsentér det som en tabel med kundenavn, sidste aktivitet og anbefalet handling."

Et konkret eksempel på en komplet prompt:

"Jeg uploader et foto af vores whiteboard fra dagens strategimøde. Transskribér alle punkter, organiser dem i tre kategorier (kort sigt, mellemlang sigt, langt sigt), og markér de punkter, hvor der ser ud til at mangle en ansvarlig person."

Bemærk, hvordan prompten gør alt det tunge løft. Billedet leverer rådata. Teksten leverer retning. Sammen giver de et svar, som hverken billede eller tekst kunne producere alene.

Vil du blive endnu skarpere til at styre Claudes output, kan du kombinere multimodal prompting med XML-tags til at strukturere dine svar. Det er særligt nyttigt, når du arbejder med flere billeder i samme samtale.

Fire færdige prompts du kan bruge i dag

Principperne er enkle. Men det er hurtigere at starte med en prompt, der allerede virker. Her er fire, du kan kopiere direkte og tilpasse til dit billede.

Prompt 1: Fejlmeddelelse eller teknisk screenshot

"Dette er et screenshot af en fejlmeddelelse jeg fik, da jeg forsøgte at [beskriv handling]. Forklar hvad fejlen betyder på almindeligt dansk, og giv mig tre mulige løsninger i prioriteret rækkefølge. Start med den mest sandsynlige årsag."

Hvornår: Når du sidder med en teknisk fejl og ikke ved, hvor du skal starte.

Prompt 2: Graf eller datavisualisering

"Jeg uploader en graf der viser [hvad grafen måler] over [tidsperiode]. Identificér de tre mest markante ændringer. For hver ændring: angiv tidspunktet, beskriv hvad der sker i tallene, og giv én mulig forklaring på årsagen. Præsentér det som tre nummererede punkter."

Hvornår: Når du skal lave en rapport og ikke vil bruge en time på at aflæse data manuelt.

Prompt 3: Whiteboard eller håndskrevne noter

"Dette er et foto af vores whiteboard fra [mødetype] i dag. Gør følgende i rækkefølge: 1) Transskribér alt tekst præcist som skrevet. 2) Organiser punkterne i kategorierne: beslutninger, åbne spørgsmål og næste skridt. 3) Markér punkter, der mangler en ansvarlig person eller en deadline."

Hvornår: Lige efter et møde, inden whiteboard-teksten viskes ud.

Prompt 4: Dokument eller formular der skal udfyldes

"Jeg uploader et billede af [dokumenttype]. Udtrék alle felter der skal udfyldes og præsentér dem som en liste med feltnavn og en kort forklaring af, hvad der typisk skrives i feltet. Markér felter der ser obligatoriske ud."

Hvornår: Når du står med et ukendt dokument og hurtigt vil danne dig et overblik.

Alle fire prompts følger den samme struktur: kontekst, opgave, format. Du kan bruge dem som skabeloner og udskifte de kursiverede dele med dine egne oplysninger.

Hvilke begrænsninger har Claude til billedanalyse?

Claude er ikke perfekt til alt visuelt. Meget lille tekst i billeder kan blive fejlaflæst, håndskrift med dårlig læsbarhed er en udfordring, og Claude kan ikke "zoome ind" på detaljer. En god tommelfingerregel: Hvis du selv skal anstrenge dig for at læse teksten i billedet, skal du ikke forvente, at Claude klarer det fejlfrit.

Upload i højest mulig opløsning, og beskær billedet, så kun det relevante er med. Mindre støj giver bedre svar.

Udover billedkvalitet er det også vigtigt at være opmærksom på Claudes kontekstvindue, da store billeder og lange prompts hurtigt kan fylde det op. Lær at maksimere Claudes hukommelse for at håndtere selv de mest komplekse multimodale opgaver effektivt.

Du kan også bruge Claudes Projekter-funktion til at gemme billeder og kontekst, så du ikke skal starte forfra hver gang.

Kom godt i gang allerede i morgen

Start småt. Find ét billede fra din arbejdsdag, som du normalt bruger tid på at fortolke manuelt. Brug en af de fire prompts ovenfor som udgangspunkt, tilpas den til dit billede, og upload det til Claude.

Sammenlign resultatet med det, du selv ville have lavet. Inden da kan det være relevant at overveje den rette Claude-model til dine multimodale behov, da ydeevne og pris varierer. Og hvis du stadig er i tvivl om, hvilken AI-assistent der passer bedst til jeres behov, giver vores guide Claude vs. ChatGPT et solidt overblik over forskelle og styrker.

Ofte stillede spørgsmål

Bruno Poulsen

Bruno Poulsen er partner i Poulsen & Vinding, et konsulenthus der hjælper danske virksomheder og styrelser med at tage generativ AI i brug i den daglige drift. Han har været underviser hos Bigum i mere end 10 år og har siden 2023 stået bag AI-implementeringer, foredrag og workshops for blandt andre Lægemiddelstyrelsen, GS1 Danmark, Bornholms Højskole og 30+ bornholmske SMV’er via Business Center Bornholm. Skriver om praktisk anvendelse af AI-værktøjer, prompt engineering og hvordan ledelser kommer i gang mandag morgen kl. 08.00.