Multimodale Unterscheidbarkeit: wenn nach einer Marke nicht mit Worten gesucht wird

Forschungsfrage

Wie verändern visuelle Suche, Sprachanfragen und multimodale Schnittstellen die Anforderungen an die Sichtbarkeit einer Marke, und was aus der klassischen textbasierten Optimierung lässt sich in die Welt von Bildern, Sprache und Video übertragen.

Art der Belege

Angaben von Google zu Google Lens (20 Milliarden Anfragen pro Monat), Dokumentation von Google zum multimodalen AI Mode, Marktbeobachtungen von Semrush und Lumar.

Aktualität der Sachdaten

Angaben zu Plattformen und Anfragevolumina sind für das erste Quartal 2026 aktuell.

Text ist längst nicht mehr der einzige Zugang

Im gesamten AI100-Korpus haben wir über Sichtbarkeit im Kontext textbasierter Anfragen gesprochen: Der Nutzer tippt eine Frage ein, das Modell formuliert eine Antwort. Doch die Welt der Suche erschöpft sich schon lange nicht mehr in einer Folge von Wörtern auf der Tastatur. Der Nutzer fotografiert ein Produkt im Geschäft und fragt: „Was kostet das online?“ Er sagt laut: „Welches Modell ist das?“, während er die Kamera auf Kopfhörer richtet. Er lädt einen Screenshot aus Instagram hoch und bittet: „Finde etwas Ähnliches, aber günstiger.“ Er nimmt ein Video auf und ergänzt eine Textfrage: „Aus welchem Material ist das gemacht?“

Das sind keine exotischen Szenarien. Google Lens verarbeitet mehr als 20 Milliarden visuelle Suchanfragen pro Monat, und 20 % davon stehen mit Einkäufen in Zusammenhang [1]. AI Mode ist mit Google Lens integriert: Der Nutzer kann ein Foto machen oder ein Bild hochladen, und das System analysiert mithilfe der multimodalen Fähigkeiten von Gemini die gesamte Szene – Objekte, ihren Kontext, Materialien, Farben und Formen – und formuliert daraus eine komplexe Antwort [2]. ChatGPT mit GPT-4o verarbeitet Bilder, Sprache und Text gleichzeitig. 27 % der mobilen Nutzer verwenden bereits Sprachsuche [3].

Für die Marke bedeutet das, dass textbasierte Optimierung eine notwendige, aber bereits keine hinreichende Bedingung für Sichtbarkeit ist. Wenn Ihr Produkt auf einem Foto nicht erkannt werden kann, wenn ein Video auf YouTube kein Transkript hat, wenn ein Sprachassistent den ausgesprochenen Namen des Unternehmens nicht mit der richtigen Entität verknüpfen kann, verlieren Sie ein Publikum, das nicht mit Worten sucht.

Wie visuelle Suche die Regeln verändert

Visuelle Suche funktioniert grundsätzlich anders als textbasierte Suche. Der Nutzer beschreibt nicht, wonach er sucht – er zeigt es. Faltungsbasierte neuronale Netze (CNN) übersetzen ein Bild in einen numerischen Vektor und vergleichen ihn mit einer Datenbasis indexierter Bilder [4]. Das bedeutet, dass Qualität, Konsistenz und technische Zugänglichkeit von Bildern auf der Website unmittelbar darüber entscheiden, ob Ihr Produkt gefunden wird.

Für den E-Commerce sind die Folgen besonders offensichtlich. Ein Käufer sieht auf der Straße ein Kleid, fotografiert es, und Google Lens zeigt ihm in drei Sekunden ähnliche Produkte mit Preisen aus verschiedenen Online-Shops. Wenn Ihre Produktbilder von geringer Qualität sind, keine beschreibenden Alt-Texte haben, kein Product-Schema enthalten und keinen einheitlichen Bildstil aufweisen, gelangen sie nicht in diese Auswahl. Ein Wettbewerber mit sauberen, ausgezeichneten Fotos dagegen schon.

Auch visuelle Konsistenz über Plattformen hinweg wird zu einem Faktor. Google Lens erkennt Marken besser, die auf ihrer Website, auf Marktplätzen und in sozialen Netzwerken denselben Bildstil verwenden. Ein heterogenes Bildset erschwert die Zuordnung zur Entität [5].

Sprachsuche und lange Anfragen

Sprachanfragen unterscheiden sich von textbasierten Anfragen nicht nur durch die Modalität, sondern auch durch ihre Struktur. Menschen, die laut sprechen, verwenden natürliche Sätze: „Welches ist das beste Café in meiner Nähe, das gerade geöffnet hat?“ statt „Café Nähe geöffnet“. Anfragen im AI Mode sind im Durchschnitt dreimal länger als gewöhnliche Suchanfragen [6]. Das bedeutet, dass Inhalte, die auf kurze Schlüsselphrasen optimiert sind, möglicherweise nicht mit der Art übereinstimmen, wie Menschen Anfragen mündlich formulieren.

Für die Marke ergibt sich daraus eine praktische Konsequenz: FAQ-Abschnitte, die im Format „Frage – direkte Antwort“ geschrieben sind, funktionieren für Sprachsuche besser als lange Marketingtexte. Strukturierte Daten (FAQ-Schema, HowTo-Schema) helfen Sprachassistenten, eine konkrete Antwort zu extrahieren. Der Name der Marke muss aussprechbar und eindeutig sein – ein Modell, das das ausgesprochene „Exko-Data“ nicht mit der Entität „ExcoData“ verknüpfen kann, verliert die Marke bei einer Sprachanfrage.

Video und Transkripte

KI-Systeme nutzen Videoinhalte immer intensiver. Transkripte von Videos auf YouTube werden zu einer Quelle für Zitation: Wenn in Ihrem Video ein Experte ausführlich erklärt, wie das Produkt funktioniert, und das Transkript verfügbar ist, kann das Modell daraus ein Fragment für die Antwort extrahieren. Fehlt das Transkript, bleibt das Video für den textbasierten Teil des Antwortsystems unsichtbar.

Google weist ausdrücklich darauf hin, dass AI Mode multimodale Analyse nutzt: Das System arbeitet gleichzeitig mit Text, Bildern, Video und Kontext [2]. Für eine Marke, die Schulungsvideos, Reviews oder Produktdemonstrationen veröffentlicht, ist ein sauberes und präzises Transkript keine Option, sondern eine Voraussetzung für Auffindbarkeit.

Was sich schon jetzt tun lässt

Multimodale Optimierung erfordert keine Revolution. Sie verlangt eine Ausweitung der vertrauten Arbeit auf neue Formate.

Bilder: hohe Qualität, beschreibende Dateinamen und Alt-Texte, Product-Schema mit Verknüpfung zu konkreten Produkten, ein einheitlicher Bildstil über Plattformen hinweg.

Stimme: FAQ-Abschnitte im Frage-Antwort-Format, HowTo-Schema für Anleitungen, ein aussprechbarer und eindeutiger Markenname.

Video: Transkripte für jedes Video auf YouTube und auf der Website, VideoObject-Schema, beschreibende Titel und Metadaten.

Übergreifende Ebene: dasselbe Prinzip wie bei textbasierter Sichtbarkeit – strukturierte Daten, Maschinenlesbarkeit, externe Bestätigungen. Multimodalität hebt diese Grundlagen nicht auf, sondern ergänzt sie um neue Eingangskanäle.

Was als gesichert gelten kann

Visuelle Suche verarbeitet bereits Dutzende Milliarden Anfragen pro Monat. AI Mode integriert multimodale Eingaben (Foto + Text + Stimme). Videotranskripte werden als Quelle für Zitation genutzt. Sprachanfragen sind länger und gesprächsnäher als textbasierte Anfragen.

Wo Unsicherheit bleibt

Der genaue Anteil von KI-Antworten, die durch visuelle oder sprachbasierte Eingaben ausgelöst werden, ist außerhalb von Google Lens bislang schwer zu messen. Der Einfluss multimodaler Optimierung auf die Zitationsfähigkeit einer Marke auf verschiedenen Plattformen ist nur fragmentarisch untersucht.

Was sich in der Praxis ändert

Eine Marke muss nicht nur Text, sondern auch Bilder, Video und sprachbasierte Auffindbarkeit optimieren. Basisschritte (Alt-Texte, Transkripte, FAQ-Schema) sind einfach und können sofort begonnen werden.

Quellen

[1] Google / DemandSage. Google Lens: 20 billion visual searches per month, 20% shopping-related. 2025

[2] 9to5Google / Google I/O. Google AI Mode adding multimodal Google Lens search. 2025

[3] Google / Lumar. 27% of global mobile users use voice search. 2025

[4] Xictron / Pinecone. Visual search technology: CNN embeddings and vector matching. 2026

[5] SE Blog. Multimodal Search Optimization: visual consistency and entity recognition. 2026

[6] ALM Corp. Google AI Mode queries average nearly 3x longer than traditional search. 2026

← Sprachfeld der Sichtbarkeit: Warum dieselbe Marke in unterschiedlichen Wettbewerbswelten lebt 9 / 9 Zurück zu den Pfaden →

Multimodale Unterscheidbarkeit: wenn nach einer Marke nicht mit Worten gesucht wird

Text ist längst nicht mehr der einzige Zugang

Wie visuelle Suche die Regeln verändert

Sprachsuche und lange Anfragen

Video und Transkripte

Was sich schon jetzt tun lässt

Quellen

Verwandte Materialien

Maschinenlesbare kommerzielle Infrastruktur: Auszeichnung, Produktdatenfeeds und Kataloge als Sprache, die KI versteht

SEO und KI-Sichtbarkeit: Was sich übertragen lässt, was nicht und wo herkömmliche Optimierung schaden kann

Praktische Maßnahmenkarte: wie Sie die Maschinenunterscheidbarkeit Ihrer Marke stärken

Update-Verzögerung: Wie schnell KI-Systeme ihr Bild eines Unternehmens nach einer Nachricht, einer Produkteinführung oder einer Preisänderung verändern

Wie das in der Praxis mit AI100 zusammenhängt