Der alte Vertrag zwischen Website und Bot ist zerbrochen

In der alten Webökonomie galt der Zugang eines Bots zu einer Website beinahe als bedingungslos positiv. Such-Crawling führte zur Indexierung, Indexierung zur Sichtbarkeit, Sichtbarkeit zum Traffic und Traffic zu Werbung, Abonnement oder Verkauf. Das war ein grobes Schema, doch es funktionierte lange genug, um fast wie ein Naturgesetz des Internets zu wirken. Genau dieses Gesetz haben Antwortsysteme mit KI durchbrochen. Heute kann derselbe Text zugleich an mehreren Ketten teilnehmen: eine Suchantwort unterstützen, als Material für das Training eines Modells dienen, im Moment der Anfrage zur „Verankerung“ einer Antwort verwendet werden oder infolge einer direkten Nutzerhandlung abgerufen werden. Technisch ähneln sich diese Ketten, ökonomisch unterscheiden sie sich jedoch. Damit wird die Frage des Zugangs zu Inhalten nicht länger binär. Sie lautet nicht mehr: „Lassen wir den Bot herein oder nicht?“ Sie zerfällt in die schwierigere Frage: „Welchen Bot, zu welchem Zweck und unter welchen Bedingungen lassen wir zu?“

Um darüber ernsthaft zu sprechen, muss man mindestens vier Zugriffsmodi unterscheiden. Der erste ist Crawling und Indexierung für Suchsichtbarkeit. Der zweite ist die Nutzung von Inhalten zum Training künftiger Modelle. Der dritte ist die Nutzung eines Suchindex oder eines Webdokuments für die Antwort im Moment der Anfrage, also zur operativen Verankerung der Antwort. Der vierte ist ein vom Nutzer initiierter Zugriff auf die Website, bei dem das System selbst als Vermittler der Nutzeranfrage handelt. Wer diese Modi zu einer einzigen Masse vermischt, verliert als Marke die Steuerbarkeit und beginnt, Entscheidungen entweder aus diffuser Angst oder aus naivem Optimismus heraus zu treffen.

Vier Zugriffsmodi und ihre neue Trennung

Google und OpenAI haben diese Trennung faktisch bereits in ihren Regeln verankert. Google Search Central schreibt ausdrücklich, dass die KI-Funktionen der Suche — AI Overviews und AI Mode — nach denselben Zugriffsregeln gesteuert werden wie die normale Suche: Der maßgebliche Agent bleibt hier Googlebot, und zur Begrenzung der Sichtbarkeit in suchbasierten KI-Funktionen werden vertraute Mechanismen wie nosnippet, data-nosnippet, max-snippet oder noindex eingesetzt [1]. Gleichzeitig betont Google, dass Google-Extended ein separates Token ist, mit dem Betreiber die Nutzung von Inhalten für das Training künftiger Gemini-Generationen sowie für die Verankerung in Gemini Apps und in bestimmten Cloud-Szenarien steuern können; Google-Extended beeinflusst dabei weder die Aufnahme einer Website in Google Search noch ist es ein Ranking-Signal [2]. Daraus folgt eine sehr wichtige Schlussfolgerung: Suchsichtbarkeit und Modelltraining sind bei Google institutionell bereits getrennt. Man kann nicht länger seriös sagen „Google erlaubt“ oder „Google verboten“, ohne zu präzisieren, um welchen Prozess es genau geht.

OpenAI dokumentiert dieselbe Unterscheidung noch deutlicher. Laut Dokumentation ist OAI-SearchBot für die Aufnahme von Websites in die Suchfunktionen von ChatGPT zuständig, GPTBot für das Training von Grundmodellen und ChatGPT-User für vom Nutzer initiierte Aktionen [3]. Darüber hinaus schreibt OpenAI ausdrücklich, dass ein Webmaster OAI-SearchBot zulassen kann, damit eine Website in Suchantworten erscheint, und zugleich GPTBot sperren kann, damit Inhalte nicht für das Training verwendet werden [3]. Das ist im Kern ein neues Recht des Betreibers: das Recht, zwischen nützlicher Sichtbarkeit und unerwünschter Wertabschöpfung zu unterscheiden.

Genau daraus entsteht die neue Ökonomie des Zugangs. Cloudflare hat das Problem 2025 besonders scharf formuliert: Alte Such-Bots und Betreiber waren durch einen symbiotischen Tausch miteinander verbunden, während viele neue Trainings-Bots Inhalte konsumieren, aber fast keinen Traffic zurückbringen [4]. Nach Angaben von Cloudflare lag Googles Verhältnis im Juni 2025 bei ungefähr 14 Crawls pro zurückgeführtem Besuch, während das Verhältnis von Crawls zu zurückgeführtem Traffic bei OpenAI 1700:1 und bei Anthropic 73 000:1 betrug [4]. Selbst wenn man berücksichtigt, dass ein Teil der Weiterleitungen aus Apps sich im Referer-Header womöglich nicht niederschlägt, ist die Asymmetrie zu groß, um sie als statistisches Rauschen abzutun [4]. Sie bedeutet, dass der frühere informelle Vertrag „Ihr bekommt Inhalte, wir bekommen Publikum“ in vielen KI-Szenarien nicht mehr automatisch gilt.

Vom Totalverbot zur differenzierten Steuerung

Genau hier droht Marken allerdings die andere Extremposition: die Versuchung eines Totalverbots. Eine solche Entscheidung wirkt moralisch klar, ist ökonomisch jedoch nicht immer vernünftig. Wer alle Zugriffsformen sperrt, schließt die Website nicht nur vom Training aus, sondern kappt unter Umständen auch Teile der Kanäle für Sichtbarkeit, Forschung und Vertrieb. Es gibt erste empirische Signale dafür, dass die Blockierung von Bots bei großen Betreibern mit geringerem Traffic verbunden sein könnte als bei jenen, die den Zugang nicht blockieren, auch wenn solche Ergebnisse noch vorsichtig interpretiert werden müssen [5]. Es geht also nicht darum, dass man nicht blockieren darf. Es geht darum, dass ein Verbot kein neutraler Abwehrreflex mehr ist. Es ist zu einer strategischen Entscheidung mit unterschiedlichen Folgeszenarien geworden.

Deshalb muss die Haltung einer reifen Marke differenziert sein. Wenn ein Unternehmen in ChatGPT Search sichtbar sein will, aber nicht möchte, dass seine Texte zum Training künftiger Modelle verwendet werden, ist das technisch bereits über getrennte Regeln für OAI-SearchBot und GPTBot möglich [3]. Wenn eine Marke nichts gegen die Teilnahme an Google Search und AI Overviews hat, aber nicht möchte, dass Inhalte für das Training von Gemini verwendet werden, lässt sich das durch die Kombination aus Zulassung des Googlebot und Einschränkung für Google-Extended ausdrücken [1][2]. Anders gesagt: Der Markt bewegt sich schrittweise auf einen Modus fein abgestimmter Zugriffsrechte zu und nicht mehr auf ein grobes „ja“ oder „nein“.

Vor diesem Hintergrund ist der Versuch besonders interessant, Zugang zu Inhalten selbst zum Gegenstand eines Geschäfts zu machen. Im Sommer 2025 stellte Cloudflare ein Modell pay per crawl vor, bei dem der Domaininhaber für einen konkreten Bot einen von drei Modi wählen kann: den Zugriff kostenlos zulassen, für das Crawling Gebühren verlangen oder ihn vollständig blockieren [6]. Noch ist das eher ein Infrastruktur-Experiment als ein Massenstandard. Seine Bedeutung lässt sich jedoch kaum überschätzen. Zum ersten Mal macht es sichtbar, dass Crawling kein kostenloses Geschenk mehr sein muss. Wenn ein KI-Unternehmen Wert aus fremden Inhalten zieht, ohne Traffic zurückzuführen, stellt sich eine vollkommen rationale Frage nach dem Preis dieses Zugangs.

Es gibt noch eine weitere praktische Seite des Problems, die im öffentlichen Raum selten thematisiert wird. Viele Websites formulieren ihre eigenen Regeln im Umgang mit Bots noch immer unzureichend. Cloudflare weist darauf hin, dass nur rund 37% der größten Domains überhaupt eine Datei robots.txt haben und dass Verbote für zentrale KI-Agenten selbst unter den vorhandenen robots.txt-Dateien erstaunlich selten sind [4]. Das bedeutet, dass ein erheblicher Teil des Internets ohne eigene rechtliche und technische Position in die neue Epoche eingetreten ist. Unternehmen streiten über KI als globales Kulturproblem, haben auf Infrastrukturebene aber noch nicht einmal ihr „ja“ oder „nein“ in einer Form ausgesprochen, die Maschinen lesen können.

Inhalte als Vermögenswert mit Zugangsbedingungen

Für Marken ist das keine abstrakte Rechtsfrage, sondern eine Frage nach Wert und Rolle von Inhalten. Einige Materialien werden als Marketingressource für maximale Verbreitung geschaffen. Andere sind eine Forschungsressource, in die Geld investiert wurde, weshalb eine Marke die kostenlose Extraktion begrenzen möchte. Wieder andere sind ein kommerzieller Katalog, bei dem aktuelle Sichtbarkeit am wichtigsten ist. Eine vierte Gruppe ist Servicedokumentation, die nur in bestimmten Szenarien gezeigt werden soll. Eine moderne Zugangsstrategie muss zumindest zwischen diesen Klassen unterscheiden und für sie unterschiedliche Beteiligungsmodi in der Antwortumgebung festlegen.

Für ai100 ist das Thema der Ökonomie des Zugangs besonders forschungsträchtig. Hier lässt sich eine Beobachtungsbasis über mehrere Schichten zugleich aufbauen: welche Agenten die Website tatsächlich aufrufen, wie robots.txt konfiguriert ist, wo der Zugriff erlaubt und wo er eingeschränkt ist, wie sich das auf die Sichtbarkeit der Marke in Antwortsystemen auswirkt und wie sich das Volumen des Crawlings zum tatsächlichen Rückfluss von Traffic oder kommerziellem Interesse verhält. Solches Material kann mit der Zeit zu einem der wertvollsten Bestände werden, weil der Markt KI-Zugang nach wie vor in moralischen Kategorien diskutiert und nicht in den Begriffen einer messbaren Architektur des Werteaustauschs.

Die Hauptschlussfolgerung ist hier recht streng. In der neuen Umgebung sind Inhalte nicht mehr bloß eine Mitteilung, sondern ein Vermögenswert mit mehreren Kanälen der Wertabschöpfung. Sie können Kunden bringen, eine maschinelle Antwort formen, ein künftiges Modell trainieren oder zu einer Ware werden, für deren Zugang der Betreiber früher oder später eine Kompensation verlangen wird. Deshalb ist das Recht der Marke, ihre Präsenz zu steuern, nicht das Recht zu verschwinden. Es ist das Recht zu wählen, in welchem Modus ihr Wissen an der Ökonomie der KI teilnehmen soll. Und in den kommenden Jahren werden nicht jene gewinnen, die am lautesten empört sind oder am stärksten schwärmen, sondern jene, die eine ruhige, präzise und technisch saubere Politik des Zugangs zum eigenen Wissen aufbauen.

Was als gesichert gelten kann

Zuverlässig festgestellt ist bereits, dass große Plattformen Such-Crawling und Training voneinander trennen und dass eine Marke den Zugang zu diesen Modi unterschiedlich konfigurieren kann. Auch die ökonomische Asymmetrie zwischen Crawling und zurückgeführtem Traffic ist öffentlich dokumentiert.

Wo Unsicherheit bleibt

Deutlich weniger klar ist, wie sich marktliche Bezahlmechanismen für Crawling entwickeln und wie schnell sie zum Massenstandard werden. Hier befindet sich der Markt noch im Experimentierstadium.

Was sich in der Praxis ändert

Für Unternehmen lautet die praktische Schlussfolgerung, dass Zugangsregeln Teil der Inhaltsstrategie und der technischen Architektur werden müssen — und nicht nur ein zufälliges Bündel von Zeilen in der robots.txt.

Quellen

[1] Google Search Central. AI Features and Your Website. 2025-2026
[2] Google for Developers. Google's common crawlers - Google-Extended. 2025-2026
[3] OpenAI Developers. Overview of OpenAI Crawlers. 2026
[4] Cloudflare Blog. Control content use for AI training with Cloudflare’s managed robots.txt and blocking for monetized content. 2025
[5] Zhao H., Berman R. The Impact of LLMs on Online News Consumption and Production. 2026
[6] Cloudflare Blog. Introducing pay per crawl: Enabling content owners to charge AI crawlers for access. 2025

Verwandte Materialien

Forschungsartikel 7 Min.

Update-Verzögerung: Wie schnell KI-Systeme ihr Bild eines Unternehmens nach einer Nachricht, einer Produkteinführung oder einer Preisänderung verändern

Warum zwischen der Änderung eines Fakts über eine Marke und seinem stabilen Erscheinen in der Maschinenantwort Zeit vergeht — und wie man diese Verzögerung in der Praxis beobachten kann.

Material öffnen →
Forschungsartikel 7 Min.

Maschinenlesbare kommerzielle Infrastruktur: Auszeichnung, Produktdatenfeeds und Kataloge als Sprache, die KI versteht

Die Daten- und Auszeichnungsschicht, die Marke und Produkte für Maschinen verständlich macht: Kataloge, Produktfeeds, strukturierte Beschreibungen und deren Synchronisierung.

Material öffnen →
Nächster Schritt

Wie das in der Praxis mit AI100 zusammenhängt

Wenn Sie nicht einen Überblick, sondern eine spezifische Diagnose für Ihre Marke brauchen, können Sie mit AI100 prüfen, wie das Modell das Unternehmen in neutralen Auswahlszenarien wahrnimmt, welche Wettbewerber höher positioniert sind und welche Verbesserungen die Sichtbarkeit am ehesten steigern.

Beispielbericht ansehen