„Antwortblase“: Warum dieselbe Marke in ChatGPT, Google, Copilot und anderen Systemen unterschiedlich erscheint

Forschungsfrage

Warum dieselbe Anfrage in unterschiedlichen Systemen verschiedene Versionen einer Marke erzeugt und weshalb das für Diagnose und Strategie gefährlich ist.

Art der Belege

Neuere akademische Arbeiten zu „Antwortblasen“, zum Vergleich von Websuche und generativer Antwort sowie Plattformdokumente zur Mechanik von AI-Modi.

Aktualität der Sachdaten

Der Beitrag stützt sich auf Studien und offizielle Dokumente aus den Jahren 2025–2026.

Die Illusion einer einheitlichen KI-Sichtbarkeit

Ein Marketingverantwortlicher eines SaaS-Unternehmens will prüfen, wie die KI sein Produkt beschreibt. Er öffnet ChatGPT, tippt „Welches Analysetool eignet sich für einen mittelgroßen Onlineshop?" — und erhält eine ermutigende Antwort: Die Marke wird unter den Top 3 genannt, die Beschreibung kommt der Realität nahe, die Kategorie stimmt. Fünf Minuten später geht dieselbe Frage an Google AI Mode. Das Bild ändert sich: Das Unternehmen wird erwähnt, aber erst an fünfter Stelle, charakterisiert als „Enterprise-Lösung mit hoher Einstiegshürde" — und unter den ersten drei stehen zwei Wettbewerber, die der Marketingverantwortliche für Nischenanbieter hielt. Perplexity liefert eine dritte Version: Die Marke fehlt völlig; stattdessen erscheint ein Aggregator, von dem der Marketingverantwortliche noch nie gehört hat. Eine Frage — drei Systeme — drei verschiedene Märkte. Und keine der drei Darstellungen ist im absoluten Sinne „richtig". Jede ist aus eigenen Quellen zusammengesetzt, nach eigenen Auswahlregeln und mit einer eigenen Vorstellung davon, was überhaupt erwähnt werden sollte.

Im Frühjahr 2026 bestätigten die Forschenden der Studie Answer Bubbles diese Beobachtung im großen Maßstab: 11 000 reale Anfragen in mehreren Systemen zeigten, dass es nicht bloß um unterschiedliche Antwortqualität geht — es handelt sich um strukturell verschiedene Informationsrealitäten [1]. Dieselben Anfragen führten zu unterschiedlichen Quellensets, unterschiedlichen Tonlagen der Sicherheit und unterschiedlichen Sichtbarkeitsniveaus für verschiedene Dokumenttypen. Nach Aktivierung der Suche klangen die Systeme zudem sicherer und verstärkten gleichzeitig ihre eigenen Verzerrungen bei der Quellenauswahl [1]. Die Unterschiede sind hier keine stilistischen Nuancen. Es sind Unterschiede in der Konstruktion des Fensters selbst, durch das der Nutzer den Markt sieht. Die Abweichungen enden allerdings nicht an den Plattformgrenzen: Wechselt man die Sprache der Anfrage, kann dieselbe Marke im selben System völlig anders aussehen. Dieser sprachlich-geografischen Dimension ist ein eigener Artikel gewidmet.

Woraus die „Antwortblase“ besteht

Warum geschieht das? Der erste Grund sind unterschiedliche Such- und Retrieval-Infrastrukturen. Google erklärt ausdrücklich, dass AI Overviews und AI Mode eine fächerförmige Aufspaltung der Anfrage nach Unterthemen und Datenquellen nutzen — das, was das Unternehmen selbst als query fan-out bezeichnet — und dadurch einen breiteren Satz unterstützender Links zeigen können als die klassische Suche [2]. Google präzisiert jedoch auch, dass AI Mode und AI Overviews unterschiedliche Modelle und Techniken verwenden können und sich deshalb die Antworten und Links sogar innerhalb desselben Ökosystems unterscheiden [2]. Das ist ein wichtiger Punkt. Die Unterschiede zwischen Systemen verlaufen nicht nur entlang der Grenze „Google gegen alle anderen“, sondern auch innerhalb jeder Plattform zwischen verschiedenen Antwortmodi.

Der zweite Grund sind Unterschiede in der parametrischen Erinnerung der Modelle, also in jenem Wissen, das vor der konkreten Anfrage gelernt wurde. Die Arbeit Navigating the Shift betont, dass die Divergenz zwischen traditioneller Suche und generativen Antworten nicht nur durch aktuelles Web-Retrieval verursacht wird, sondern auch durch das Vortraining des Modells, das die Logik der Auswahl und Interpretation von Quellen weiter prägt [3]. Für eine Marke bedeutet das etwas Unangenehmes, aber Ernüchterndes: Ihre Präsenz im Internet garantiert noch nicht, dass alle Systeme diese Präsenz gleich lesen. Das eine System stützt sich stärker auf aktuelle Websuche und frische Dokumente, das andere auf zuvor gelernte Regelmäßigkeiten einer Kategorie, das dritte auf eine Mischung aus beidem.

Der dritte Grund sind unterschiedliche Quellenpräferenzen. Answer Bubbles zeigt, dass in generativen Zusammenfassungen Wikipedia und längere Texte unverhältnismäßig häufig auftauchen, während soziale und negativ gefärbte Quellen unterrepräsentiert sind [1]. Die Arbeit The Rise of AI Search fügt diesem Bild noch eine weitere Ebene hinzu: KI-Suche bringt im Durchschnitt weniger vom „Long Tail“ des Webs an die Oberfläche, verweist häufiger auf die größten Websites und bietet insgesamt weniger Variabilität der Antworten als die klassische Suche [4]. Für den Markt bedeutet das, dass unterschiedliche Systeme nicht einfach verschiedene Dokumente finden. Sie entscheiden auch unterschiedlich darüber, welcher Quellentyp überhaupt Teil einer öffentlichen Version der Realität werden darf.

Der vierte Grund sind unterschiedliche Oberflächen- und Politikentscheidungen. Die bereits erwähnte Arbeit The Rise of AI Search zeigt, dass schon das Auftreten einer KI-Antwort vom Typ der Anfrage abhängt: Fragen erhalten Antwortzusammenfassungen deutlich häufiger als navigationsorientierte Formulierungen [4]. Das wirkt wie eine Kleinigkeit, hat für Marken jedoch enorme Folgen. Ein Unternehmen kann im Modus der direkten Namensanfrage gut sichtbar sein und im Modus der Frage nach einer Kategorie nahezu verschwinden, also dort, wo die Entscheidung früher fällt und keine ausdrückliche Absicht besteht, die Website der Marke zu besuchen. In der Praxis bedeutet das, dass unterschiedliche Systeme eine Frage nicht nur unterschiedlich beantworten, sondern auch unterschiedlich darüber entscheiden, ob die Frage überhaupt eine generative Antwort verdient.

Der fünfte Grund sind Unterschiede in den Kriterien des Quellenvertrauens. In Search Arena zeigt sich, dass Nutzer Antworten mit einer größeren Zahl von Zitationen häufiger bevorzugen und dass auch der Typ der zitierten Quellen diese Präferenz beeinflusst [5]. SourceBench unterstreicht, dass die Qualität der Quellen die Verlässlichkeit der Antwort unmittelbar bestimmt [6]. Doch welche Quellen als hochwertig gelten sollen, entscheidet jedes System auf eigene Weise. Für das eine sind große Referenzquellen wichtiger, für das andere technologische und gesellschaftliche Plattformen, für das dritte offizielle Dokumente oder kommerzielle Kataloge. Daher kann eine Marke in einer Umgebung dank starker Dokumentation gewinnen und in einer anderen verlieren, in der die Ebene unabhängiger Reviews den Ausschlag gibt.

Warum eine Einzelaufnahme fast nutzlos ist

Der praktische Effekt dieser Unterschiede zeigt sich gut an Beispielen aus dem Arbeitsalltag. Angenommen, ein Unternehmen verkauft einen komplexen Analytics-Service für den E-Commerce. In einer Antwortoberfläche kann es als „Lösung für mittlere und große Shops“ dargestellt werden — weil das System sich auf die offizielle Website, einen Branchenüberblick und mehrere ausführliche Vergleichsartikel stützt. In einer anderen Oberfläche erscheint dieselbe Marke als „teures Enterprise-Produkt“ — weil das Modell eine Reihe externer Veröffentlichungen über große Implementierungen heranzieht und das Segment kleiner Unternehmen ignoriert. In einer dritten Antwort verschwindet sie ganz und macht einfacheren Diensten Platz, wenn die Nutzerfrage als „womit kann man ohne lange Implementierung schnell starten?“ formuliert war. Und in allen drei Fällen geht es nicht um eine Lüge im strengen Sinn, sondern um unterschiedliche Regime von Selektion, Akzentuierung und Verallgemeinerung.

Daraus folgt eine sehr wichtige methodische Schlussfolgerung: Eine Einzelaufnahme der Sichtbarkeit ist fast nutzlos. Wenn eine Marke sich einmal, in einem System, mit einer Anfrage und in einer Sprache prüft, hat sie nicht den Markt gemessen — sondern den Zufall. Um die reale Lage zu verstehen, muss nicht nur das Durchschnittsergebnis, sondern auch die Streuung bewertet werden. Wie viele unterschiedliche Versionen einer Marke entstehen in verschiedenen Systemen? Wie stabil wiederholen sich die zentralen Eigenschaften? Wie verändert sich der Kreis der Zitationen bei veränderter Formulierung? Erscheint die Marke in Antworten auf eine Kategorie auch ohne direkte Nennung ihres Namens? Das sind die Fragen, die die Position eines Unternehmens in der Antwortumgebung tatsächlich zeigen.

Für die künftige ai100-Basis drängt sich hier beinahe von selbst ein Beobachtungsschema auf. Für jede untersuchte Anfrage sollte nicht nur die Tatsache der Antwort gespeichert werden, sondern auch das System, der Antwortmodus, das Datum, die Sprache, der Typ der Intention, das Set der Zitationen, der dominante Ton, der Platz der Marke in der Komposition der Antwort und die Zahl der Alternativen, die dem Vergleich automatisch beigemischt wurden. Dann wird die „Antwortblase“ nicht bloß eine Metapher sein, sondern eine messbare Größe: Man wird sehen können, wie stabil eine Marke gegenüber dem Wechsel des Vermittlers ist und an welcher Stelle die Abweichung beginnt.

Wie systemübergreifende Beobachtung aufgebaut werden sollte

Es gibt jedoch auch eine tiefere geschäftliche Schlussfolgerung. Wenn unterschiedliche Systeme unterschiedliche Versionen einer Marke aufbauen, besteht die strategische Aufgabe eines Unternehmens nicht darin, absolute Einheitlichkeit zu erreichen — die prinzipiell unerreichbar ist — sondern die chaotische Streuung zu verringern und den Anteil der gewünschten Interpretationen zu erhöhen. Das lässt sich nicht mit magischen Verfahren der „Optimierung für KI“ erreichen, sondern durch Wissensdisziplin: abgestimmte Formulierungen in eigenen Ressourcen, starke externe Bestätigungen, eine verständliche maschinenlesbare Datenschicht, eine präzise Kategorisierung des Produkts und Aufmerksamkeit für jene Fragetypen, in denen die Marke heute verschwindet.

In gewissem Sinn ist die „Antwortblase“ eine neue Form der Marktfragmentierung. Früher kämpften Unternehmen um einen Platz in der Ergebnisliste. Heute kämpfen sie zusätzlich um die Stabilität ihrer Entität beim Übergang von einer Antwortmaschine zur anderen. Deshalb sollte eine reife Marke im Jahr 2026 nicht einfach fragen: „Was sagt KI über uns?“, sondern: „Welche Versionen von uns existieren in unterschiedlichen Antwortwelten — und welche von ihnen setzt sich häufiger durch als die anderen?“ Erst mit dieser Frage beginnt wirklich zeitgemäße Arbeit an Sichtbarkeit.

Was als gesichert gelten kann

Mit hoher Sicherheit ist belegt, dass sich unterschiedliche Systeme nach Suchinfrastruktur, Quellenpräferenzen, Oberflächenentscheidungen und Stil der Synthese unterscheiden. Deshalb erhält dieselbe Marke unterschiedliche maschinelle Versionen.

Wo Unsicherheit bleibt

Der genaue Beitrag jedes Mechanismus — parametrische Erinnerung, Retrieval, Anzeigepolitik, Oberfläche — zur Abweichung einer konkreten Antwort bleibt für die externe Beobachtung gewöhnlich verborgen.

Was sich in der Praxis ändert

Daraus folgt eine direkte Regel: Eine Prüfung in nur einem System und mit nur einer Formulierung sagt fast nichts über die reale Position einer Marke aus. Erforderlich ist eine Serie von Ausführungen, Sprachen und Plattformen.

Quellen

[1] Huang M. et al. Answer Bubbles: Information Exposure in AI-Mediated Search. 2026

[2] Google Search Central. AI Features and Your Website. 2025-2026

[3] Chen M. et al. Navigating the Shift: A Comparative Analysis of Web Search and Generative AI Response Generation. 2026

[4] Ovadya A. et al. The Rise of AI Search: Implications for Information Markets and Human Judgement at Scale. 2026

[5] Search Arena: Analyzing Search-Augmented LLMs. 2025

[6] Zhang Y. et al. SourceBench: Can AI Answers Reference Quality Web Sources? 2026

← Kategoriesubstitution: wie eine Marke nicht nur gegen einen Wettbewerber, sondern auch gegen einen fremden Entscheidungsrahmen verliert 5 / 11 SEO und KI-Sichtbarkeit: Was sich übertragen lässt, was nicht und wo herkömmliche Optimierung schaden kann →

„Antwortblase“: Warum dieselbe Marke in ChatGPT, Google, Copilot und anderen Systemen unterschiedlich erscheint

Die Illusion einer einheitlichen KI-Sichtbarkeit

Woraus die „Antwortblase“ besteht

Warum eine Einzelaufnahme fast nutzlos ist

Wie systemübergreifende Beobachtung aufgebaut werden sollte

Quellen

Verwandte Materialien

Erwähnung, Zitation und Einfluss: drei Ebenen der Markenpräsenz in KI-Antworten

Update-Verzögerung: Wie schnell KI-Systeme ihr Bild eines Unternehmens nach einer Nachricht, einer Produkteinführung oder einer Preisänderung verändern

Kategoriesubstitution: wie eine Marke nicht nur gegen einen Wettbewerber, sondern auch gegen einen fremden Entscheidungsrahmen verliert

Sprachfeld der Sichtbarkeit: Warum dieselbe Marke in unterschiedlichen Wettbewerbswelten lebt

Wie das in der Praxis mit AI100 zusammenhängt