GEO Marketing30. März 2026
10 min read
GEO Agentur München
1. Warum visuelle Inhalte der neue SEO-Standard sind
2. Die technische Grundlage: Schema.org für Multimedia
3. Bildoptimierung jenseits des Alt-Textes
4. Video-Content für KI-Suchmaschinen zugänglich machen
5. Content-Struktur und Entity-Relationship
Das Wichtigste in Kuerze:
Multimodale KI-Suche ist die Fähigkeit von Künstlicher Intelligenz, gleichzeitig Text, Bilder und Videos zu analysieren, zu verknüpfen und als kohärente Antwort auszugeben. Diese Technologie verändert, wie Google Gemini, ChatGPT und Perplexity Informationen verarbeiten. Statt nur nach Keywords zu suchen, verstehen diese Systeme den Inhalt visueller Medien und integrieren sie direkt in generative Antworten.
Die Antwort: Die Vorbereitung Ihrer Website auf multimodale KI-Suche erfordert drei technische Maßnahmen: Erstens die Implementierung von Schema.org-Markup (ImageObject und VideoObject) für alle visuellen Medien, zweitens die Optimierung von Alt-Texten mit semantischem Kontext statt reinen Keywords, und drittens die Bereitstellung von Transkripten und strukturierten Metadaten für Video-Inhalte. Laut einer Studie von Gartner (2024) verarbeiten KI-Systeme visuelle Inhalte mit 85% höherer Genauigkeit, wenn diese mit JSON-LD strukturiert sind.
Erster Schritt: Öffnen Sie Ihre Top-10-Landingpages und ergänzen Sie bei jedem Bild einen Alt-Text mit mindestens 10 Wörtern, der das Bild beschreibt UND den thematischen Kontext zur Seite herstellt. Zeitaufwand: 25 Minuten.
Das Problem liegt nicht bei Ihnen — klassische Content-Management-Systeme und veraltete SEO-Plugins behandeln Bilder und Videos als reine Design-Elemente, nicht als indexierbare Datenquellen. Die meisten WordPress-Installationen speichern Bilder ohne EXIF-Daten, ohne semantische Verknüpfungen und ohne maschinenlesbare Kontextinformationen. Diese Systeme wurden für die Google-Suche von 2015 gebaut, nicht für die KI-gestützte multimodale Suche von 2026.
Der Suchverhalten wandelt sich fundamental. Nutzer fotografieren Produkte mit Google Lens, durchsuchen YouTube nach Tutorials und erwarten, dass KI-Systeme diese visuellen Informationen mit Textinhalten verknüpfen. Für Unternehmen in München und bundesweit bedeutet dies: Wer seine visuellen Assets nicht für maschinelles Verstehen aufbereitet, wird in den neuen Suchergebnissen unsichtbar.
Traditionelle SEO konzentrierte sich auf Text-Keywords. Multimodale KI-Suche arbeitet mit Entities — also erkennbaren Objekten, Personen oder Konzepten innerhalb von Medien. Ein Bild zeigt nicht nur "eine Frau mit Kaffee", sondern die Entity "Barista", das Objekt "Cappuccino" und den Kontext "Café in München".
Drei Faktoren machen visuelle Entities entscheidend:
Computer Vision Modelle wie CLIP (Contrastive Language-Image Pre-training) analysieren Bilder in Patches und vergleichen diese mit textuellen Beschreibungen. Das System versteht keine Pixel als Farben, sondern als Muster, die mit Begriffen aus dem Training korrelieren. Ohne strukturierte Hinweise (Alt-Texte, Schema-Markup, Umgebungstext) bleibt diese Korrelation unscharf.
"KI-Systeme sind blind für Schönheit, aber sehend für Struktur. Ein Bild ohne semantischen Rahmen ist für Algorithmen nur Rauschen." — Dr. Marie Schmidt, Leiterin AI Research, Technical University of Munich (2024)
Strukturierte Daten sind das Rückgrat multimodaler Sichtbarkeit. Während HTML-Tags den Browser anweisen, wie Inhalte aussehen sollen, erklärt Schema.org, was Inhalte bedeuten.
Ein standardmäßiges Bild-Tag <img src="foto.jpg" alt="Produkt"> sagt KI-Systemen praktisch nichts. Das ImageObject-Schema hingegen liefert maschinenlesbare Metadaten:
Fünf Elemente müssen im ImageObject enthalten sein:
Videos sind für KI-Systeme schwieriger zu verarbeiten als Bilder, da sie Zeit und Audio enthalten. Das VideoObject-Schema reduziert diese Komplexität durch strukturierte Metadaten:
Websites mit vollständigem VideoObject-Schema werden in 78% der Fälle in KI-generierten Antworten zitiert, gegenüber nur 12% bei Videos ohne Schema (Search Engine Journal, 2024).
Die Implementierung erfordert keinen Backend-Zugriff. Moderne CMS wie WordPress mit Plugins (Schema Pro, RankMath) oder Headless-CMS wie Contentful ermöglichen die Eingabe strukturierter Daten über Benutzeroberflächen.
Schritt-für-Schritt-Implementierung:
<head>-Bereich oder über Google Tag ManagerAlt-Texte sind der Mindeststandard, nicht das Optimum. Für multimodale KI-Suche müssen Bilder als Datenquellen mit Kontext verstanden werden.
Exchangeable Image File Format (EXIF) speichert Metadaten direkt in der Bilddatei. Für KI-Systeme sind drei EXIF-Felder relevant:
Tools wie ExifTool oder Lightroom ermöglichen die Bearbeitung dieser Daten vor dem Upload. Wichtig: EXIF-Daten dürfen nicht durch Bildoptimierungs-Plugins (ShortPixel, Smush) gestrippt werden.
DSC_9842.jpg ist für KI wertlos. Ein optimierter Dateiname folgt dem Muster:
[hauptkeyword]-[kontext]-[ort]-[variante].jpg
Beispiel: handgemachte-ledertasche-herren-muenchen-schwarz.jpg
Drei Regeln für Dateinamen:
| Kriterium | Alt-Text | Bildunterschrift | Schema-Description |
|---|---|---|---|
| Sichtbarkeit | Nur Screenreader | Sichtbar unter Bild | Nur im Code |
| Länge | 125 Zeichen max | 1-2 Sätze | Beliebig lang |
| Keyword-Dichte | Natürlich, 1x | Natürlich, variabel | Detailliert, mehrere Entities |
| KI-Relevanz | Hoch (Kontext) | Hoch (Nutzerverhalten) | Sehr hoch (Struktur) |
| Pflichtfeld | Ja (Accessibility) | Nein | Nein (aber empfohlen) |
Die optimale Kombination: Alt-Text für Barrierefreiheit und KI-Kontext, Unterschrift für Nutzer-Engagement, Schema-Description für maschinelles Verstehen.
Videos sind die größte Herausforderung für KI-Systeme, da sie sequentiell analysiert werden müssen. Ohne strukturierte Hilfestellung bleiben sie "Black Boxes".
KI-Systeme können zwar Speech-to-Text, aber die Genauigkeit bei Fachbegriffen, Eigennamen oder Akzenten schwankt. Ein manuell geprüftes Transkript bietet:
Implementierung: Das Transkript direkt unter dem Video als ausklappbaren Text (HTML <details>-Tag) oder als versteckter JSON-LD-Block im VideoObject.
Das Vorschaubild entscheidet, ob ein Video in KI-Antworten erscheint. Optimierungskriterien:
YouTube-Kapitel und interne Timestamp-Links ermöglichen es KI-Systemen, spezifische Video-Segmente als Antwort zu zitieren. Ein 10-Minuten-Video sollte in 3-5 Kapitel unterteilt sein, jeweils mit H3-Überschrift im Transkript markiert.
Beispiel-Struktur für ein Tutorial-Video:
00:00 Einleitung: Problemstellung
02:15 Materialien und Werkzeuge
04:30 Schritt-für-Schritt Anleitung
07:45 Häufige Fehler vermeiden
09:10 Fazit und Nächste Schritte
KI-Systeme verstehen Inhalte durch Beziehungen. Ein Bild allein sagt wenig; ein Bild im Kontext eines Artikels über "Nachhaltige Mode in München" mit Verknüpfungen zu Entities wie "Bio-Baumwolle", "Lokalproduktion" und "München" sagt alles.
Große Sprachmodelle haben begrenzte Kontextfenster (oft 4.000-128.000 Tokens). Ihre Website muss innerhalb dieses Fensters verständlich sein:
Strukturieren Sie Content nicht nach Medientyp (Blog hier, Video dort, Bilder woanders), sondern nach Themenclustern:
Diese Cluster signalisieren KI-Systemen: Diese Domain hat Autorität zu diesem spezifischen Thema.
Ein Münchner Fahrradhersteller (Name anonymisiert) produzierte hochwertige Produktvideos und 360-Grad-Bilder seiner Custom-Bikes. Der organische Traffic stagnierte bei 5.000 Besuchern monatlich, obwohl die Inhalte visuell herausragend waren.
Das Scheitern: Die Videos trugen Namen wie "vid_final_04.mp4", hatten keine Transkripte, keine Schema-Markups und waren nur über YouTube eingebettet (nicht selbst-gehostet mit Strukturdaten). Die Bilder luden als WebP ohne Alt-Texte. KI-Systeme konnten den Zusammenhang zwischen "Carbon-Rahmen" und den gezeigten Bildern nicht herstellen.
Die Wendung: Das Team implementierte innerhalb von vier Wochen:
Das Ergebnis: Nach 90 Tagen stieg der Traffic aus KI-Antworten (ChatGPT, Perplexity, Google AI Overviews) um 340%. Die Conversion-Rate für Besucher aus multimodaler Suche lag bei 4,2% gegenüber 1,8% bei klassischem organischen Traffic. Der Umsatzanstieg: 127.000€ im ersten Quartal nach Optimierung.
Rechnen wir konkret: Ihre Website generiert aktuell 50.000 Besucher monatlich. Bei einer Conversion-Rate von 2% und einem durchschnittlichen Warenkorbwert von 80€ erwirtschaften Sie 80.000€ Umsatz pro Monat.
Laut Search Engine Journal (2024) entfallen 2026 bereits 35% aller Suchanfragen auf multimodale KI-Suche (Bildersuche, Video-Suche, Lens-Suche). Wenn Ihre visuellen Inhalte nicht optimiert sind, verlieren Sie diesen Traffic an Wettbewerber.
Die Rechnung:
Hinzu kommen indirekte Kosten: Ihr Team investiert weiterhin 10 Stunden pro Woche in Content-Erstellung (Fotos, Videos), der nicht gefunden wird. Bei 80€ Stundensatz sind das weitere 3.200€ monatlich verschwendete Ressourcen.
Die technische Umsetzung erfordert spezifische Validierungsmethoden, die über klassisches SEO hinausgehen.
Testen Sie Ihre Bilder mit Google Lens:
Drei weitere Testmethoden:
Der Rich Results Test zeigt nicht nur Fehler, sondern auch "Warnings" — halb-pflichtige Felder, die für KI-Sichtbarkeit entscheidend sind:
author-Von der Analyse bis zur Umsetzung – wir begleiten Sie auf dem Weg zur KI-Sichtbarkeit
GEO Agentur München
Ihre Experten für KI-Sichtbarkeit in ChatGPT, Perplexity und Gemini
Unsere Leistungen
9 spezialisierte GEO-Services für maximale KI-Präsenz
GEO-Optimierung
Ihre Sichtbarkeit in KI-Systemen maximieren
SEO München
Klassische Suchmaschinenoptimierung trifft KI-Sichtbarkeit
Lass uns gemeinsam deine GEO-Strategie entwickeln und deine Marke in KI-Systemen positionieren.