Dieselbe Marke, zwei Ausführungen, andere Nachbarn in der Tabelle
Im April 2026 haben wir ein Audit für eine SaaS-Marke mit mittlerer Bekanntheit zweimal im Abstand von einer halben Stunde durchgeführt. Dieselben Modelle, derselbe Prompt-Korpus, dieselbe Sprache der Anfragen. In diesen dreißig Minuten traten in der Kategorie keine neuen Anbieter auf, die Marke änderte weder ihre Website noch ihre Positionierung; selbst die Caches der KI-Anbieter waren zwischen den beiden Ausführungen praktisch vollständig warmgelaufen. Die Marke erhielt fast denselben Gesamtscore — die Abweichung lag bei etwa zwei Punkten und damit innerhalb des üblichen Rauschens einer Wiederholungsmessung.
Erst als wir die zweite Tabelle öffneten — den Anteil der Erwähnungen innerhalb der Antworten —, veränderte sich das Bild. Bei einem der Modelle stieg dieser Wert innerhalb einer halben Stunde fast auf das Dreifache. Bei einem anderen ungefähr auf das Doppelte. Bei einem dritten war die Verschiebung moderat, lag aber immer noch jenseits dessen, was man als vernünftiges Rauschen bezeichnen würde.
Die Erklärung war ernüchternd einfach: Zwischen den beiden Ausführungen hatte die automatische Suche nach Wettbewerbern die Liste der Nachbarn leicht umgeschrieben. Ein Anbieter fiel aus dem Set heraus, ein anderer rückte an seine Stelle. Die Marke war in den Antworten nicht sichtbarer geworden. Es hatten sich lediglich die Nachbarn geändert, anhand derer ihr Anteil berechnet wurde — und die Arithmetik tat ihr Übriges.
Das ist keine Anekdote über ein defektes System. Es ist ein typischer Effekt, der immer dann auftritt, wenn eine Messung vorgibt, ein einzelnes Objekt zu messen, tatsächlich aber dessen Verhalten in der Umgebung anderer Objekte misst. Und nahezu jedes Instrument zur Analyse von KI-Sichtbarkeit misst genau auf diese Weise.
Woher der Begriff stammt
„Konkurrenzset“ — competitive set — tauchte in der Marketingforschung lange vor der KI-Sichtbarkeit auf. Bei Aaker und Keller ist er in Arbeiten zur Brand Equity seit dem späten 1990er-Jahren ein Arbeitsbegriff: ein fester Kreis von Marken, gegen die die untersuchte Marke gemessen wird. Bei Kapferer steht ihm das nahe verwandte Konzept des frame of reference gegenüber: der Bezugsrahmen, innerhalb dessen eine Marke überhaupt erst Bedeutung erhält.
Die Idee ist einfach: Keine Marke existiert für sich allein. Sie hat immer Nachbarn — diejenigen, mit denen der Käufer sie im Moment der Wahl vergleicht. Und ein Forscher, der die Stärke einer Marke misst, muss diese Nachbarn ausdrücklich benennen. Andernfalls lassen sich die Zahlen, die er erhält, keinem klaren Bezugsrahmen zuordnen.
In klassischen Brand-Trackern wird das Konkurrenzset manuell zusammengestellt — in der Regel aus zwei bis vier direkten Wettbewerbern plus ein bis zwei „Indikator“-Akteuren aus benachbarten Kategorien. Die Liste wird im Studiendesign fixiert, und bei der Wiederholungsmessung nach einem halben oder ganzen Jahr werden dieselben Namen wieder verwendet. Entscheidet sich der Forscher für eine Aktualisierung des Sets, ist das eine eigene methodische Entscheidung, die im Bericht vermerkt wird.
Bei KI-Sichtbarkeit ist es anders. Wettbewerber werden meist vom Modell selbst gesucht: Wir geben anderthalb bis zwei Dutzend Prompts der Art „Wen sollte man in dieser Kategorie noch in Betracht ziehen?“ ein, sammeln die Antworten, aggregieren sie — und erhalten so ein Set. Das ist bequem: Der Forscher muss den fremden Markt nicht im Detail kennen und nicht erraten, wen er einbeziehen soll. Für diesen Komfort zahlt man jedoch einen Preis: Die automatische Suche liefert von Ausführung zu Ausführung leicht unterschiedliche Resultate. Damit wird das Set von einem stabilen Teil des Designs zu einer gleitenden Variablen.
Wo sich das Konkurrenzset in den Metriken verbirgt
Die Metriken der KI-Sichtbarkeit lassen sich danach in zwei Klassen einteilen, wie empfindlich sie auf die Zusammensetzung der Nachbarn reagieren. Diese Unterscheidung ist nützlich, weil die Metriken grundlegend verschieden aufgebaut sind, obwohl sie im Bericht nebeneinanderstehen und ähnlich aussehen.
Die erste Klasse umfasst Metriken, die das Abschneiden der Marke selbst beschreiben. Erschien sie in der Antwort des Modells? Auf welcher Position? Wie häufig schaffte sie es unter die ersten drei? Erhielt sie eine explizite Empfehlung? Diese Kennzahlen werden aus dem Verhalten des Modells gegenüber einer einzelnen Marke berechnet. Antwortet das Modell ungefähr gleich, bleibt auch die Zahl ungefähr gleich — unabhängig davon, wer sich sonst noch im Set befindet. Das Auftauchen eines neuen Unternehmens in den Nachbarzeilen der Tabelle verändert sie kaum.
Die zweite Klasse umfasst Anteilsmetriken. Der Anteil der Erwähnungen einer Marke an allen Erwähnungen aller Marken. Der Anteil der Szenarien, in denen die Marke auftauchte, an der Gesamtzahl der Szenarien, in denen das Modell überhaupt jemanden nannte. Der Anteil der Zitationen der Domain der Marke an allen Zitationen der Domains der Wettbewerber. Diese Kennzahlen sind ihrem Wesen nach relativ. Sie haben einen Zähler — das, was zur gemessenen Marke gehört. Und sie haben einen Nenner — das, was zum gesamten Set gehört. Kommt ein neuer Anbieter hinzu, den das Modell seltener erwähnt als die übrigen, wird der gesamte Nenner kleiner. Der Zähler bewegt sich nicht. Der Anteil steigt.
Das ist dieselbe Arithmetik, nach der Sie automatisch reicher wirken, wenn in Ihrer Schulklasse der Sohn eines Bankiers wegzieht. Ihr Vermögen hat sich nicht verändert, aber Ihre Position in der Verteilung hat sich verschoben — und jede Statistik, die berechnet, „auf welchem Platz Sie beim Einkommen stehen“, gibt nun einen anderen Wert aus. Daran ist nichts unfair. Die Messung hing schlicht von der Zusammensetzung der Gruppe ab, und diese Gruppe hat sich verändert.
Wenn wir also sagen, „der Anteil der Erwähnungen einer Marke ist gestiegen“, müssen wir zwei unterschiedliche Aussagen im Kopf behalten. Die erste lautet: Das Modell hat die Marke tatsächlich häufiger erwähnt — das Verhalten hat sich verändert. Die zweite lautet: Die Nachbarn haben sich verändert, der Nenner wurde neu berechnet, der Anteil ist verrutscht — das Verhalten kann gleich geblieben sein. Ohne eine explizite Fixierung des Sets lassen sich diese beiden Fälle leicht verwechseln. Und wenn eine Entscheidung nach Abschluss des Audits — etwa ob eine Kampagne gestartet, die Positionierung verschoben oder Budget in eine Content-Strategie investiert werden soll — auf der ersten Interpretation basiert, während in Wirklichkeit die zweite vorliegt, kann der Preis dieses Fehlers hoch sein.
Warum die automatische Suche nach Wettbewerbern immer leicht variiert
Ein KI-Modell antwortet nicht identisch auf denselben Prompt. Selbst wenn ein Forscher den Zufall über die Einstellungen der Generierung so weit wie möglich reduziert, bleibt dem Modell weiterhin die Wahl zwischen mehreren plausiblen Fortsetzungen der Antwort — und diese Wahl kann sich von Lauf zu Lauf leicht unterscheiden. Das ist kein Defekt, sondern eine Eigenschaft moderner generativer Modelle.
Wenn wir fragen: „Wen sollte man in Kategorie X noch in Betracht ziehen?“, beginnt die Antwort fast immer gleich — mit denselben zwei oder drei unstrittigen Marktführern, die das Modell jedem Fragenden nennen würde. Die Unterschiede beginnen am Rand der Liste. Wenn es um den achten, neunten oder zehnten Namen geht, hat das Modell im Kopf ungefähr gleich wahrscheinliche Kandidaten, und das Ranking zwischen ihnen fällt jedes Mal ein wenig anders aus.
Wenn man anderthalb bis zwei Dutzend solcher Antworten aus einer Ausführung und noch einmal so viele aus einer zweiten zusammenlegt, stimmen die aggregierten Listen im oberen Bereich überein und weichen im unteren Bereich voneinander ab. Eine Marke, die beim ersten Mal gerade genug Stimmen bekam, um unter die finalen acht zu kommen, landet beim zweiten Mal auf Rang neun und fällt aus dem Set heraus. An ihre Stelle rückt eine andere — die beim letzten Mal noch auf Rang zehn lag.
Aus Sicht des Studiendesigns ist das eine schlechte Nachricht: Die Peripherie des Sets ist konstruktionsbedingt beweglich, und keine Anstrengung auf Seiten des Systems kann sie vollständig stabilisieren. Man kann die Zahl der Prompts erhöhen, über die Wettbewerber gesucht werden — das verbessert die Lage, aber nicht radikal. Man kann die Caches der Anbieter warmhalten — das senkt die Kosten, verändert den Inhalt jedoch kaum. Das Zittern am Rand der Liste bleibt bestehen.
Für die Praxis bedeutet das etwas sehr Einfaches: Solange das Konkurrenzset bei jeder Ausführung neu definiert wird, ist es technisch nicht korrekt, Ausführungen anhand irgendeiner Metrik miteinander zu vergleichen, die einen Nenner enthält. Der Gesamtscore der Marke hält stand, weil er überwiegend auf Metriken der ersten Klasse beruht. Die Anteile tun das nicht.
Was wir bei AI100 tun
AI100 löst dieses Problem so. Beim ersten Audit einer Marke sammelt das System das Konkurrenzset auf dem üblichen Weg: automatische Suche plus die Möglichkeit für den Kunden, Namen manuell hinzuzufügen, die er für wichtig hält, oder solche zu entfernen, die er für irrelevant hält. Die finale Liste — das, was der Kunde vor dem Start freigibt — wird als erste Version des Konkurrenzsets dieser Marke gespeichert.
Bei einem wiederholten Audit derselben Marke verwendet das System standardmäßig genau dieses Set. Im Startformular sieht der Kunde einen Hinweis: „Für diese Marke existiert bereits ein Konkurrenzset vom [Datum]. Verwenden?“ Lautet die Antwort „Ja“, wird die Wiederholungsmessung gegen denselben Kreis von Nachbarn durchgeführt wie die vorherige, und die Anteilsmetriken werden ehrlich vergleichbar.
Will der Kunde das Set überarbeiten — einen neuen Anbieter hinzufügen, einen aus dem Markt ausgeschiedenen entfernen oder die Liste vollständig erneuern — ist das eine explizite Handlung, die eine neue Version des Konkurrenzsets erzeugt. Im Bericht zeigt die Signatur am Ende des methodischen Abschnitts, welche Version genau verwendet wurde, wann sie angelegt wurde und wie viele Marken sie enthält. Das ist nötig, damit der Kunde beim Vergleich von Berichten sieht, ob von zwei Ausführungen mit demselben Konkurrenzset die Rede ist oder von zwei Ausführungen mit unterschiedlichen Sets.
Ein neues Audit für eine Marke, die zuvor noch nicht untersucht wurde, sucht Wettbewerber von Grund auf neu — aber der Kunde kann weiterhin eingreifen und das Set vor dem Start nachjustieren. Hier „merkt“ sich das System nichts, weil es nichts gibt, woran es sich erinnern könnte; dafür steht die Bildung des ersten Sets unter Kontrolle des Kunden und bleibt kein verborgener Zwischenschritt.
Wann es sinnvoll ist, das Konkurrenzset zu aktualisieren
Die Situationen, in denen eine Aktualisierung sinnvoll ist, sind in Wirklichkeit überschaubar.
Sechs bis zwölf Monate sind vergangen, und in der Kategorie sind sichtbare Veränderungen eingetreten — jemand ist verschwunden, jemand deutlich gewachsen, oder der Markt selbst hat sich verändert. In diesem Fall beginnt das alte Set die aktuelle Realität zu verfälschen, und es sollte aufgefrischt werden, selbst wenn dadurch die Vergleichbarkeit mit den Zahlen des Vorjahres verloren geht. Der Preis für ein ehrliches Bild ist hier höher als der Preis einer durchgängigen Zeitreihe.
Es ist ein relevanter neuer Anbieter aufgetreten, den es im ersten Set schlicht noch nicht gab. Geht es um ein oder zwei Namen, ist es einfacher, sie manuell hinzuzufügen, ohne eine vollständige Überarbeitung zu starten — die Grundstruktur des Sets bleibt erhalten, und die meisten Anteile bleiben vergleichbar. Sind es jedoch sofort viele neue Namen, ist das sehr wahrscheinlich ein Signal dafür, dass das Set insgesamt erneuert werden sollte.
Die Marke hat ihre Positionierung verändert oder sich in eine angrenzende Kategorie verschoben. Das Konkurrenzset muss der Marke folgen — andernfalls misst die Studie nicht mehr die reale Sichtbarkeit, sondern die Sichtbarkeit in einer Kategorie, zu der die Marke nicht länger gehört.
In allen anderen Fällen ist es besser, beim alten Set zu bleiben. Die natürliche Versuchung „Lassen wir es aktualisieren, damit es frischer ist“ arbeitet hier gegen den Nutzen der Studie: Jede Aktualisierung setzt die Möglichkeit zurück, spätere Ausführungen mit früheren zu vergleichen. Die Standardentscheidung „beibehalten“ ist reine methodische Sorgfalt, nicht Konservatismus.
Was wahrscheinlich bleibt oder von der Plattform abhängt
Die genaue Grenze zwischen „die Veränderung der Anteile wurde durch eine Verschiebung des Sets ausgelöst“ und „die Veränderung der Anteile wurde durch einen realen Sichtbarkeitswandel ausgelöst“ lässt sich in einer einzelnen Wiederholungsausführung nicht sauber ziehen. Um beides zu trennen, braucht es entweder ein fixiertes Set oder zwei Ausführungen mit derselben Verschiebung des Sets oder eine spezielle Stabilitätsanalyse — das ist eine eigene methodische Aufgabe, die angewandte Forscher zur KI-Sichtbarkeit bislang unterschiedlich lösen.
Metriken der KI-Sichtbarkeit, deren Formel einen Nenner über das gesamte Set der Marken enthält — Anteil der Erwähnungen, Anteil der Szenarien, Anteil der Zitationen — werden bei einer Veränderung der Zusammensetzung des Sets neu berechnet, selbst wenn sich das Verhalten des Modells gegenüber der untersuchten Marke nicht verändert hat. Der Effekt steckt in der Arithmetik der Berechnung und nicht im Code des Systems; er zeigt sich in jedem Instrument zur KI-Sichtbarkeit, das das Set nicht ausdrücklich fixiert.
Ein Wiederholungsaudit ohne Fixierung des Konkurrenzsets zeigt nicht die Dynamik der Marke, sondern die Überlagerung dieser Dynamik mit Verschiebungen in der Zusammensetzung der Nachbarn. Für Entscheidungen, die auf dem Vergleich von Ausführungen untereinander beruhen — das Set fixieren. Für eine frische Markteinschätzung — aktualisieren. Diese beiden Modi dürfen nicht verwechselt werden; im Bericht muss ausdrücklich kenntlich gemacht werden, in welchem Modus gearbeitet wurde.
Quellen
Verwandte Materialien
Sprachfeld der Sichtbarkeit: Warum dieselbe Marke in unterschiedlichen Wettbewerbswelten lebt
Als wir dieselbe Marke in fünf Sprachen testeten, erwarteten wir Rauschen — kleinere Schwankungen im Score. Stattdessen stellten wir fest, dass sich beim Sprachwechsel nicht der Score der Marke verändert, sondern der gesamte Markt um sie herum.
Material öffnen →„Antwortblase“: Warum dieselbe Marke in ChatGPT, Google, Copilot und anderen Systemen unterschiedlich erscheint
Warum es keine einheitliche KI-Sichtbarkeit gibt: dieselbe Marke kann zwischen ChatGPT, Google AI Overviews, Copilot und Perplexity merklich unterschiedlich aussehen.
Material öffnen →Wie das in der Praxis mit AI100 zusammenhängt
Wenn Sie nicht einen Überblick, sondern eine spezifische Diagnose für Ihre Marke brauchen, können Sie mit AI100 prüfen, wie das Modell das Unternehmen in neutralen Auswahlszenarien wahrnimmt, welche Wettbewerber höher positioniert sind und welche Verbesserungen die Sichtbarkeit am ehesten steigern.
Beispielbericht ansehen