Hvad er multimodal AI-optimering?

Multimodal AI-optimering handler om at gøre dit indhold læsbart for AI-søgemaskiner på tværs af alle formater: tekst, billeder, video og lyd. AI-søgemaskiner som ChatGPT, Gemini og Perplexity kan allerede analysere billeder, transskribere lyd og opsummere videoer, så dit indhold konkurrerer mod alle formattyper.

Skal jeg transskribere mine videoer og podcasts for at blive synlig i AI-søgning?

Ja. En fuld ordret transskription publiceret som tekst på siden er afgørende, fordi AI-søgemaskiner ikke kan "se" eller "høre" dit indhold uden tekst at crawle. Publicér transskriptionen direkte på siden, ikke som en fil man skal downloade.

Hvilke strukturerede data skal jeg bruge til billeder, video og lyd?

Brug ImageObject-markup til billeder, VideoObject-markup til videoer og PodcastEpisode-markup til podcast-episoder. Alle tre typer skrives som JSON-LD og placeres i en script-blok i sidens head-sektion. De fortæller AI'en præcist hvad indholdet er, hvornår det er publiceret og hvem der ejer det.

Hvor skal jeg starte, hvis jeg ikke har tid til at gøre det hele?

Start med dine mest brugte billeder og opdatér alt-teksterne, så de er beskrivende nok til at en fremmed forstår hvad billedet viser. Tag derefter din mest sete video og tilføj transskription og VideoObject-markup. Til sidst kan du tage fat på eventuelle podcasts og lydfiler.

Multimodal AI-optimering: Billeder, video og lyd i AI-søgning

Øvet Guide 10 min læsning Opdateret 16. jul 2026

Din virksomhed har måske den bedste tekst på hele internettet. Men hvis en AI-søgemaskine får stillet et spørgsmål, der bedst besvares med et billede, en video eller et lydklip, og du kun har tekst, så bliver du sprunget over. Søgning er ikke længere kun tekst. Det er billeder, video og lyd, alt sammen på én gang. Denne ændring i søgeadfærd betyder, at du skal tænke ud over traditionel tekst-SEO for at fange kunderne i den nye søgeadfærd. Denne artikel giver dig konkrete greb til at optimere alle tre formater, så du bliver synlig i en multimodal søgeverden.

Hovedpointer

Multimodal AI-optimering handler om at gøre dit indhold (billeder, video og lyd) læsbart for AI-søgemaskiner, ikke kun din tekst.
Alt-tekster på billeder skal være så beskrivende, at en fremmed kan forstå præcis hvad billedet viser, selv uden at se det.
Videoer skal have fuld transskription publiceret som tekst på siden, plus kapitelinddeling med timestamps, så AI'en kan pege direkte til det relevante svar.
Podcasts og lydfiler skal have episode-beskrivelser skrevet som spørgsmål og svar, og en fuld ordret transskription publiceret på siden.
Du behøver ikke gøre alt på én gang. Start med dine mest brugte billeder, din mest sete video og dine mest stillede spørgsmål.

Indholdsfortegnelse

Hvad betyder "multimodal" i praksis?
Billede SEO til AI: Mere end bare et filnavn
Video optimering AI: Din usynlige guldgrube
Auditiv søgning: Glem ikke lyden
Sammenhængen: Fremtidens multimodale GEO

Hvad betyder "multimodal" i praksis?

Når vi siger multimodal søgemaskine, mener vi bare, at AI'en kan forstå og kombinere flere formater: tekst, billeder, video og lyd. ChatGPT, Gemini og Perplexity kan allerede analysere billeder, transskribere lyd og opsummere videoer. Det betyder, at dit indhold ikke længere kun konkurrerer mod andre hjemmesidetekster. Det konkurrerer mod YouTube-videoer, podcast-episoder og infografikker.

Forestil dig en indkøbschef i en fødevarevirksomhed, der skal sammenligne emballagemaskiner. Hun søger ikke kun med tekst. Hun uploader et foto af sin nuværende maskine og spørger: "Hvad er et bedre alternativ?" Hvis din virksomhed har optimerede produktbilleder med korrekte metadata, dukker du op. Hvis du kun har en PDF-brochure uden billedbeskrivelser, er du usynlig.

Det er kernen i multimodal AI-optimering: at gøre dit indhold læsbart for AI på tværs af alle formater.

Hvordan optimerer du billeder til AI-søgemaskiner?

Du optimerer billeder til AI-søgemaskiner ved at skrive beskrivende alt-tekster der besvarer spørgsmål, tilføje ImageObject-markup i JSON-LD og placere billeder i kontekst med forklarende tekst omkring dem.

Traditionel billede-SEO handlede om alt-tekster og filnavne. Det gælder stadig, men AI-søgemaskiner kræver mere kontekst.

Her er tre ting, du kan gøre allerede nu:

1. Skriv alt-tekster der besvarer spørgsmål

I stedet for en alt-tekst der siger "vores produkt", skriv hvad billedet faktisk viser og hvorfor det er relevant.

Sådan gør du det i praksis:

Før	Efter
`alt="produkt"`	`alt="Roterende emballagemaskine model X200 med dobbelt forseglingsarm til høj-volumen fødevareproduktion"`
`alt="stue"`	`alt="52 kvm stue med sydvendte vinduer og nyistandsat parketgulv i Frederiksberg-lejlighed fra 1923"`
`alt="team foto"`	`alt="Tre ingeniører fra Møllers VVS ved installation af jordvarmepumpe i parcelhus, Odense 2024"`

Reglen er enkel: hvis du fjernede billedet og kun havde alt-teksten tilbage, skulle en fremmed stadig forstå præcis hvad de gik glip af.

2. Brug struktureret data til billeder

ImageObject-markup i JSON-LD fortæller AI'en præcist, hvad billedet forestiller, hvornår det er taget, og hvem der ejer det. Her er et konkret eksempel du kan kopiere og tilpasse:

{
  "@context": "https://schema.org",
  "@type": "ImageObject",
  "contentUrl": "https://ditdomæne.dk/billeder/emballagemaskine-x200.jpg",
  "name": "Emballagemaskine X200 i drift",
  "description": "Roterende emballagemaskine model X200 med dobbelt forseglingsarm, fotograferet under produktion hos Hansens Fødevarer, januar 2024.",
  "datePublished": "2024-01-15",
  "author": {
    "@type": "Organization",
    "name": "Dit Firmanavn"
  },
  "license": "https://creativecommons.org/licenses/by/4.0/"
}

Placer dette i en <script type="application/ld+json">-blok i <head> på den side, billedet lever på. Har du brug for en grundig gennemgang af struktureret data, så læs vores guide til at gøre dit website læsbart for AI.

3. Placer billeder i kontekst

Et billede der står alene på en side, giver AI'en ingen sammenhæng. Teksten umiddelbart over og under billedet fungerer som kontekst. Tænk på det som en billedtekst i en avis: den fortæller læseren og AI'en, hvad de kigger på.

Konkret eksempel:

Uden kontekst: Billedet placeres midt på siden. Ingen tekst i nærheden forklarer det.
Med kontekst: Tekstafsnittet over billedet beskriver, hvad maskinen kan. Billedteksten nedenunder specificerer modelnummer og anvendelse. AI'en kan nu forbinde billedet med det spørgsmål, brugeren stillede.

Hvordan gør du dine videoer synlige i AI-søgning?

Du gør dine videoer synlige i AI-søgning ved at tilføje en fuld transskription som tekst på siden, opdele videoen i kapitler med timestamps og tilføje VideoObject-markup i JSON-LD.

Video er det format, de fleste virksomheder forsømmer mest i forbindelse med AI-søgning. Mange har allerede videoer liggende: produktdemoer, webinarer, onboarding-videoer. Men uden de rigtige signaler kan en AI-søgemaskine ikke se, hvad der er i dem.

1. Transskribér alle videoer og læg teksten på siden

En marketing-manager i en B2B-virksomhed der producerer kvartalsrapporter som videopræsentationer, kan gøre dem synlige i AI-søgninger ved at tilføje en fuld transskription under videoen. Dette er et glimrende eksempel på lynhurtig indholdsproduktion gennem genbrug af eksisterende materiale. AI'en kan nu "læse" videoens indhold.

Gratis og hurtige transskriptionsværktøjer:

YouTube's automatiske undertekster – eksportér som .txt direkte fra YouTube Studio
Whisper (OpenAI) – gratis, open source, kører lokalt eller via API
Otter.ai – god til møder og webinarer, har gratis niveau

Publicér transskriptionen i fuld længde på siden. Ikke som en fil man skal downloade. Som tekst Google og AI'en kan crawle.

2. Brug kapitelinddeling med timestamps

Både YouTube og AI-værktøjer forstår timestamps. Opdel dine videoer i logiske sektioner med beskrivende titler.

Sådan ser det ud i en YouTube-beskrivelse:

00:00 Introduktion: Hvad koster en jordvarmepumpe?
01:45 De tre faktorer der bestemmer prisen
04:20 Sådan beregner du tilbagebetalingstiden
07:10 Hvornår kan det ikke betale sig?
09:30 Spørgsmål fra seerne

Når en bruger spørger Perplexity "hvornår kan en jordvarmepumpe ikke betale sig?", kan AI'en nu pege direkte til timestamp 07:10 i din video i stedet for at sende brugeren et andet sted hen.

3. Tilføj VideoObject-markup

Ligesom med billeder bruger du JSON-LD til at fortælle AI'en, hvad videoen indeholder:

{
  "@context": "https://schema.org",
  "@type": "VideoObject",
  "name": "Hvad koster en jordvarmepumpe? Alt du skal vide i 2024",
  "description": "Gennemgang af de tre faktorer der bestemmer prisen på en jordvarmepumpe, inklusiv beregning af tilbagebetalingstid og tilfælde hvor det ikke er rentabelt.",
  "thumbnailUrl": "https://ditdomæne.dk/videoer/jordvarmepumpe-thumbnail.jpg",
  "uploadDate": "2024-03-10",
  "duration": "PT10M15S",
  "contentUrl": "https://ditdomæne.dk/videoer/jordvarmepumpe-pris",
  "embedUrl": "https://www.youtube.com/embed/DIN_VIDEO_ID",
  "hasPart": [
    {
      "@type": "Clip",
      "name": "Hvornår kan det ikke betale sig?",
      "startOffset": 430,
      "endOffset": 570
    }
  ]
}

hasPart med startOffset og endOffset (i sekunder) er det der gør det muligt for AI'en at linke direkte til det relevante kapitel.

Hvordan optimerer du podcasts og lyd til AI-søgning?

Du optimerer podcasts og lyd til AI-søgning ved at publicere en fuld ordret transskription som tekst på siden, skrive episode-beskrivelser som spørgsmål og svar, og tilføje PodcastEpisode-markup i JSON-LD.

Podcasts og lydfiler er et overset format i de fleste virksomheders synlighedsstrategi. AI-assistenter som Siri, Alexa og Google Assistant besvarer i stigende grad spørgsmål med lydklip og podcast-uddrag. For at sikre, at dit indhold bliver det direkte svar på spørgsmål i disse nye formater, er optimering af lyd lige så vigtigt som tekst.

Hvis du allerede producerer lydindhold

Tre ting du kan gøre med det samme:

Publicér en fuld transskription med episoden. Ikke et resumé. En fuld ordret transskription som tekst på siden. Brug Whisper eller Otter.ai som nævnt ovenfor.

Skriv episode-beskrivelser som spørgsmål og svar. I stedet for:

"I denne episode taler vi med Lars om hans erfaringer med eksport til Tyskland."

Skriv:

"Hvilke fejl begår danske virksomheder, når de eksporterer til Tyskland? Lars Møller har hjulpet 40 virksomheder med den overgang og gennemgår de tre mest kostbare fejltagelser."

Det er de spørgsmål, AI'en matcher imod.

Brug PodcastEpisode-markup:

{
  "@context": "https://schema.org",
  "@type": "PodcastEpisode",
  "name": "Fejltagelser ved eksport til Tyskland",
  "description": "Lars Møller gennemgår de tre mest kostbare fejl danske virksomheder begår ved eksport til Tyskland, baseret på 40 cases.",
  "datePublished": "2024-04-02",
  "duration": "PT34M",
  "associatedMedia": {
    "@type": "MediaObject",
    "contentUrl": "https://ditdomæne.dk/podcast/episode-12.mp3"
  },
  "partOfSeries": {
    "@type": "PodcastSeries",
    "name": "Eksport i praksis"
  }
}

Hvis du ikke har lydindhold endnu

Start med det simpleste: indtal korte svar på de spørgsmål, dine kunder stiller oftest.

En kundeservicechef med 15 medarbejdere, der svarer på de samme 50 spørgsmål igen og igen, kunne indspille 2-3 minutters lydklip med de bedste svar og publicere dem med transskription. Det kræver ingen studiotid. En smartphone og et stille rum er nok.

Prioritér de spørgsmål, der stilles flest gange og typisk besvares ens. De er lavthængende frugt fordi svaret allerede eksisterer, det skal bare optages og publiceres rigtigt.

Sammenhængen: Fremtidens multimodale GEO

Pointen med alt dette er ikke, at du skal producere indhold i alle formater bare for at gøre det. Pointen er, at du skal tænke i formater, når du planlægger indhold.

Stil dig selv spørgsmålet: "Bliver mit budskab bedst forstået som tekst, billede, video eller lyd?" Sørg derefter for, at det format du vælger, er optimeret, så AI'en kan finde og forstå det.

Det hænger tæt sammen med den bredere GEO-strategi, som handler om at blive synlig i AI-søgemaskiner. Tekst-optimering er fundamentet. Multimodal optimering er det næste lag. Hvis du vil fremtidssikre din marketingstrategi, er det essentielt at forstå, hvordan GEO adskiller sig fra traditionel SEO.

Du behøver ikke gøre alt på én gang. En praktisk rækkefølge:

Uge 1: Gennemgå de 10 billeder, der bruges mest på dit site. Opdatér alt-tekster efter modellen ovenfor.
Uge 2: Tag din mest sete video. Tilføj transskription og VideoObject-markup.
Uge 3: Hvis du har en podcast eller lydfiler, tilføj PodcastEpisode-markup og publicér transskriptioner.
Løbende: Tænk i format-valg fra starten, når du planlægger nyt indhold.

Det er ikke raketvidenskab. Det er rugbrødsarbejde, der gør en konkret forskel.

Ofte stillede spørgsmål

Bruno Poulsen

Bruno Poulsen er partner i Poulsen & Vinding, et konsulenthus der hjælper danske virksomheder og styrelser med at tage generativ AI i brug i den daglige drift. Han har været underviser hos Bigum i mere end 10 år og har siden 2023 stået bag AI-implementeringer, foredrag og workshops for blandt andre Lægemiddelstyrelsen, GS1 Danmark, Bornholms Højskole og 30+ bornholmske SMV’er via Business Center Bornholm. Skriver om praktisk anvendelse af AI-værktøjer, prompt engineering og hvordan ledelser kommer i gang mandag morgen kl. 08.00.