Economía del acceso: rastreo, indexación, entrenamiento y el derecho de la marca a gestionar su presencia

Pregunta de investigación

Cómo distinguir los regímenes de acceso al contenido —búsqueda, respuesta de IA, entrenamiento, uso agéntico— y por qué esta ya es una cuestión económica, y no solo técnica.

Tipo de evidencia

Documentos de Google y OpenAI sobre robots y derechos de acceso, materiales de Cloudflare e investigaciones sobre el cambio en la economía del consumo de contenido.

Vigencia de los datos fácticos

Los datos fácticos y los ejemplos se refieren al régimen de mercado de 2025–2026.

El viejo contrato entre el sitio y el robot se ha roto

En la vieja economía web, permitir el acceso de un robot al sitio se consideraba un bien casi incondicional. El rastreo de búsqueda llevaba a la indexación, la indexación a la visibilidad, la visibilidad al tráfico y el tráfico a la publicidad, la suscripción o la venta. Era un esquema tosco, pero funcionó durante el tiempo suficiente como para convertirse casi en una ley natural de internet. Los sistemas de respuestas de IA quebraron precisamente esa ley. Ahora, un mismo texto puede participar al mismo tiempo en varias cadenas: ayudar a una respuesta de búsqueda, servir como material para entrenar un modelo, utilizarse para el «anclaje» de una respuesta en el momento de la consulta o ser extraído a partir de una acción directa del usuario. Estas cadenas se parecen desde el punto de vista técnico, pero difieren en términos económicos. Por eso, la cuestión del acceso al contenido deja de ser binaria. Ya no suena como «permitir o no permitir el robot». Se descompone en una pregunta más difícil: «¿a qué robot exactamente, para qué finalidad y en qué condiciones estamos dispuestos a dar acceso?».

Para hablar de esto con seriedad, es necesario distinguir al menos cuatro regímenes de acceso. El primero es el rastreo y la indexación para la visibilidad en buscadores. El segundo es el uso del contenido para entrenar modelos futuros. El tercero es el uso del índice de búsqueda o de un documento web para responder en el momento de la consulta, es decir, para el «anclaje» operativo de la respuesta. El cuarto es el acceso al sitio iniciado por el usuario, cuando el propio sistema actúa como intermediario de la consulta. Si se mezclan estos regímenes en una sola masa, la marca pierde capacidad de gestión y empieza a tomar decisiones basadas en temores difusos o, por el contrario, en un optimismo ingenuo.

Cuatro regímenes de acceso y su nueva separación

Google y OpenAI ya han consagrado en la práctica esta separación en sus propias reglas. Google Search Central escribe de forma explícita que las funciones de IA de la búsqueda —AI Overviews y AI Mode— se rigen por las mismas reglas de acceso que la búsqueda habitual: el agente clave sigue siendo Googlebot, y para limitar la visibilidad en las funciones de búsqueda con IA se utilizan mecanismos ya conocidos como nosnippet, data-nosnippet, max-snippet o noindex [1]. Al mismo tiempo, Google subraya que Google-Extended es un token independiente con el que el editor puede gestionar el uso del contenido para entrenar futuras generaciones de Gemini y para el anclaje en Gemini Apps y en algunos escenarios cloud; al mismo tiempo, Google-Extended no influye en la inclusión del sitio en Google Search ni constituye una señal de ranking [2]. De ello se desprende una conclusión muy importante: en Google, la visibilidad en búsqueda y el entrenamiento del modelo ya están separados institucionalmente. Ya no se puede decir honestamente «permitimos Google» o «prohibimos Google» sin precisar de qué proceso concreto se está hablando.

OpenAI formula una distinción análoga de forma aún más explícita. La documentación de OpenAI indica que OAI-SearchBot se encarga de la aparición de los sitios en las funciones de búsqueda de ChatGPT, GPTBot del entrenamiento de los modelos fundacionales y ChatGPT-User de las acciones iniciadas por el usuario [3]. Más aún, OpenAI escribe por separado que un webmaster puede permitir OAI-SearchBot para que el sitio participe en las respuestas de búsqueda y, al mismo tiempo, bloquear GPTBot para que el contenido no se utilice en el entrenamiento [3]. En esencia, se trata de un nuevo derecho del editor: el derecho a distinguir entre una visibilidad útil y una extracción de valor no deseada.

Es precisamente sobre esta base donde surge la nueva economía del acceso. En 2025, Cloudflare formuló el problema con una dureza extrema: los viejos robots de búsqueda y los editores estaban unidos por un intercambio simbiótico, mientras que muchos bots nuevos de entrenamiento consumen contenido, pero casi no devuelven tráfico [4]. Según Cloudflare, en junio de 2025 Google rastreaba los sitios unas 14 veces por cada visita devuelta, mientras que en OpenAI la relación entre rastreo y retorno era de 1700:1, y en Anthropic, de 73 000:1 [4]. Incluso si se acepta la corrección de que una parte de las visitas procedentes de aplicaciones puede no quedar registrada en el encabezado Referer, la propia asimetría es demasiado grande como para considerarla simple ruido estadístico [4]. Esto significa que el antiguo contrato informal «ustedes reciben contenido, nosotros recibimos audiencia» ya no funciona automáticamente en muchos escenarios de IA.

De la prohibición total a la gestión diferenciada

Pero aquí la marca corre el riesgo de caer en el extremo opuesto: la tentación de una prohibición total. Esa decisión parece moralmente clara, pero desde el punto de vista económico no siempre es razonable. Si se prohíben todas las formas de acceso, no solo puede excluirse el sitio del entrenamiento, sino también recortarse una parte de los canales de visibilidad, investigación y ventas. Ya existen primeras señales empíricas de que el bloqueo de bots puede estar asociado a una reducción del tráfico en grandes editores en comparación con aquellos que no bloquean el acceso, aunque esos resultados todavía exigen una interpretación prudente [5]. La cuestión no es que no se pueda bloquear, sino que la prohibición ha dejado de ser un gesto defensivo y neutral. Se ha convertido en una elección estratégica con distintos escenarios de consecuencias.

Por eso, la posición madura de una marca debe ser diferenciada. Si una empresa quiere ser visible en ChatGPT Search, pero no quiere que sus textos se utilicen para entrenar modelos futuros, eso ya es técnicamente posible mediante reglas separadas para OAI-SearchBot y GPTBot [3]. Si la marca no se opone a participar en Google Search y AI Overviews, pero no quiere que el contenido se utilice para entrenar Gemini, esto se expresa mediante la combinación de permiso para Googlebot y restricción para Google-Extended [1][2]. En otras palabras, el mercado avanza gradualmente hacia un régimen de ajuste fino de los derechos de acceso, y no hacia un tosco «sí» o «no».

En este contexto, reviste un interés especial el intento de convertir el acceso al contenido en objeto de transacción. En el verano de 2025, Cloudflare presentó el modelo pay per crawl, en el que el propietario del dominio puede elegir para un bot concreto uno de tres regímenes: permitir el acceso gratuitamente, cobrar por el rastreo o bloquearlo por completo [6]. Por ahora, se trata más de un experimento de infraestructura que de un estándar masivo. Pero es difícil exagerar su importancia. Por primera vez, hace visible el propio hecho de que el rastreo ya no tiene por qué seguir siendo un regalo gratuito. Si una empresa de IA extrae valor de contenido ajeno fuera de la lógica de devolución de tráfico, surge una pregunta perfectamente racional sobre el precio de ese acceso.

Existe además otro lado práctico del problema del que rara vez se habla en el espacio público. Muchos sitios todavía definen mal sus propias reglas de interacción con los bots. Cloudflare señala que apenas alrededor del 37% de los mayores dominios tiene siquiera un archivo robots.txt y que, entre los robots.txt existentes, las prohibiciones para los principales agentes de IA aparecen con una frecuencia sorprendentemente baja [4]. Eso significa que una parte significativa de internet ha entrado en una nueva época sin una posición jurídica ni técnica propia. Las empresas discuten sobre la IA como si fuera un problema cultural global, pero en el nivel de la infraestructura ni siquiera han pronunciado su «sí» o su «no» en un formato que las máquinas sepan leer.

El contenido como activo con condiciones de acceso

Para las marcas, esto no es una cuestión abstracta de derecho, sino una cuestión de coste y de papel del contenido. Unos materiales se crean como activo de marketing con vistas a la máxima difusión. Otros, como activo de investigación en el que se ha invertido dinero y respecto del cual la marca puede querer limitar la extracción gratuita. Un tercero funciona como catálogo comercial, donde lo más importante es la visibilidad actualizada. Un cuarto consiste en documentación operativa que solo debe mostrarse en determinados escenarios. Una estrategia moderna de acceso debe distinguir al menos estas clases y fijar para ellas regímenes distintos de participación en el entorno de respuestas.

Para ai100, el tema de la economía del acceso es especialmente rico desde el punto de vista de la investigación. Aquí puede construirse una base de observación a varios niveles al mismo tiempo: qué agentes acceden de hecho al sitio, cómo está configurado robots.txt, dónde se permite el acceso y dónde se restringe, cómo se refleja eso en la visibilidad de la marca en los sistemas de respuestas y cómo se relacionan los volúmenes de rastreo con el retorno real de tráfico o de interés comercial. Con el tiempo, ese material puede convertirse en uno de los más valiosos, porque gran parte del mercado sigue discutiendo el acceso de la IA en categorías morales, y no en términos de una arquitectura medible de intercambio de valor.

La conclusión principal aquí es bastante estricta. En el nuevo entorno, el contenido ya no es solo un mensaje, sino un activo con varios canales de extracción de valor. Puede atraer a un cliente, formar una respuesta de máquina, entrenar un modelo futuro o convertirse en una mercancía por cuyo acceso el editor tarde o temprano pedirá compensación. Por eso, el derecho de la marca a gestionar su presencia no es el derecho a desaparecer. Es el derecho a elegir en qué régimen exacto participará su conocimiento dentro de la economía de la IA. Y en los próximos años ganarán no quienes se indignen más fuerte o se entusiasmen más, sino quienes construyan una política de acceso a su propio conocimiento serena, precisa y técnicamente competente.

Qué parece bien establecido

Ya está establecido con fiabilidad que las grandes plataformas separan el rastreo de búsqueda y el entrenamiento, y que la marca puede configurar de manera distinta el acceso a esos regímenes. La asimetría económica entre el rastreo y el tráfico devuelto también está fijada públicamente.

Dónde persiste la incertidumbre

Mucho menos claro está en qué se traducirán los mecanismos de mercado para cobrar por el rastreo y con qué rapidez se convertirán en una norma masiva. Aquí el mercado se encuentra en fase experimental.

Qué cambia esto en la práctica

Para una empresa, la conclusión práctica es que la política de acceso debe convertirse en una parte de la estrategia de contenido y de la arquitectura de ingeniería, y no en un conjunto accidental de líneas en robots.txt.

Fuentes

[1] Google Search Central. AI Features and Your Website. 2025-2026

[2] Google for Developers. Google's common crawlers - Google-Extended. 2025-2026

[3] OpenAI Developers. Overview of OpenAI Crawlers. 2026

[4] Cloudflare Blog. Control content use for AI training with Cloudflare’s managed robots.txt and blocking for monetized content. 2025

[5] Zhao H., Berman R. The Impact of LLMs on Online News Consumption and Production. 2026

[6] Cloudflare Blog. Introducing pay per crawl: Enabling content owners to charge AI crawlers for access. 2025

Materiales relacionados

Siguiente paso

Cómo se relaciona esto con AI100 en la práctica

Si necesita no una visión general sino un diagnóstico específico para su marca, AI100 permite verificar cómo el modelo ve la empresa en escenarios neutrales de elección, qué competidores se posicionan más arriba y qué mejoras tienen mayor probabilidad de aumentar la visibilidad.

Ver informe de muestra