Gratis Hosting
+ Dominio .com
+ Correos Corporativos
+ Certificado SSL

+ Primer año de servicios 100% Gratis.
+Promoción valida para clientes de Diseño Web, Tiendas Virtuales y Landing Pages.

Acepto los Términos y Condiciones*

Acepto el uso de datos: Política de Privacidad*

Deseo recibir novedades y ofertas de KOM. (Opcional)

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

GEO, Inteligencia Artificial

Control de crawlers de IA: GPTBot, ClaudeBot y Google-Extended

Autor: Christian Otero | Creado: 13/06/2026 | Actualizado: 20/06/2026 a las 22:50 | 8 min de lectura

Controlar los crawlers de IA empieza por una distinción que casi nadie hace: unos bots recolectan contenido para entrenar modelos, otros buscan para responder consultas en vivo, y otros visitan tu web porque un usuario se lo pidió a su asistente. Bloquearlos en bloque mezcla tres decisiones distintas con tres consecuencias distintas. Aquí tienes la tabla de quién es quién, la matriz de decisión por tipo de negocio y cómo escribir tu política en robots.txt.

¿Por qué importa distinguir entre crawlers de IA?

Porque el mismo Disallow puede costarte cosas muy diferentes. Bloquear un bot de entrenamiento limita que tu contenido alimente las versiones futuras de un modelo: una decisión legítima de propiedad intelectual con efecto difuso y a largo plazo. Bloquear un bot de búsqueda o de visita por usuario tiene efecto inmediato y concreto: los asistentes dejan de poder citarte y de visitar tus páginas cuando un usuario pregunta por lo tuyo. Son palancas separadas y conviene moverlas por separado.

Esta decisión es la puerta de entrada de toda la visibilidad en asistentes que tratamos en la guía de GEO para aparecer en ChatGPT, Gemini, Claude y Perplexity: ninguna optimización sirve si tu robots.txt cierra la puerta equivocada. Definir esta política es de lo primero que revisamos en el servicio de posicionamiento GEO.

La tabla 2026: quién es quién y para qué viene

Los principales agentes documentados, agrupados por propósito. Las listas cambian seguido: confirma en las páginas oficiales de cada empresa antes de cerrar tu política.

User-agent	Empresa	Propósito	Si lo bloqueas pierdes
GPTBot	OpenAI	Recolección, principalmente entrenamiento	Presencia en futuros entrenamientos
OAI-SearchBot	OpenAI	Índice de búsqueda para respuestas	Citas en respuestas con búsqueda
ChatGPT-User	OpenAI	Visita en vivo pedida por un usuario	Que el asistente pueda abrir tu web al usuario
ClaudeBot	Anthropic	Recolección para sus modelos	Presencia en su ecosistema
PerplexityBot	Perplexity	Índice para su motor de respuestas	Citas en Perplexity
Google-Extended	Google	Token de control para entrenamiento de sus modelos	Nada en Búsqueda; solo uso en sus modelos de IA
Applebot-Extended	Apple	Token equivalente para sus modelos	Nada en sus servicios de búsqueda tradicionales
CCBot	Common Crawl	Corpus abierto que usan muchos entrenamientos	Presencia en datasets derivados
Meta-ExternalAgent	Meta	Recolección para sus modelos	Presencia en su ecosistema
Bytespider	ByteDance	Recolección agresiva, cumplimiento discutido	Poco; suele gestionarse por firewall

Google-Extended y los tokens que no son bots

Google-Extended merece párrafo aparte porque genera la confusión más cara. No es un rastreador adicional: es un token de robots.txt que le dice a Google si puede usar lo que su rastreador normal ya recoge para alimentar sus modelos de IA. Bloquearlo no afecta tu indexación ni tu posicionamiento en la búsqueda clásica; permitirlo no trae más visitas. Es una decisión pura de uso de contenido para entrenamiento.

Applebot-Extended funciona con la misma lógica para Apple. La regla mental: los agentes con sufijo Extended controlan el uso del contenido, no el acceso. Por eso pueden convivir un Googlebot permitido, porque vives del tráfico orgánico, con un Google-Extended bloqueado, porque decidiste no ceder contenido para entrenamiento. Ambas posturas son coherentes a la vez.

¿Bloquear entrenamiento, respuesta o nada? La matriz por negocio

Tipo de negocio	Bots de respuesta y visita	Bots de entrenamiento	Razonamiento
Servicios y B2B	Permitir	Permitir	Vives de ser encontrado y citado; el contenido es vitrina, no producto
Tienda online	Permitir	Permitir en general	Catálogo y políticas ganan siendo legibles en todos lados
Medio o creador con contenido premium	Permitir con criterio	Evaluar bloqueo	El contenido es el producto; ceder entrenamiento gratis es decisión editorial
Documentación SaaS	Permitir	Permitir	Que los asistentes respondan con tu doc reduce soporte

Nota la asimetría: casi nadie gana bloqueando bots de respuesta y visita por usuario, porque son el canal nuevo de descubrimiento. La decisión real está en el entrenamiento, y ahí sí pesan tu modelo de negocio y tu postura sobre propiedad del contenido.

Tres escenarios reales para aterrizar la decisión

Primer escenario: una clínica con blog de salud. Vive de pacientes que preguntan a asistentes por síntomas y especialistas, así que permite respuesta, visita y entrenamiento; su contenido es captación, no producto. Segundo: un portal de cursos de pago. Permite los bots de respuesta para que los asistentes citen sus páginas comerciales, pero bloquea entrenamiento y cierra por robots las rutas del contenido de pago, porque regalar el curso al corpus de un modelo erosiona lo que vende.

Tercero: una tienda con catálogo grande y precios competitivos. Permite todo lo identificado y concentra su energía en el firewall, porque su problema real no son los bots de IA documentados sino los scrapers de precios que se disfrazan. Tres negocios, tres políticas distintas, una sola lógica: decidir por consecuencia, no por miedo.

Fíjate que en los tres casos la respuesta y la visita por usuario quedaron abiertas. Esa constante no es casualidad: es el canal donde se decide la próxima década de descubrimiento, y cerrarlo por reflejo es la versión moderna de esconderse de Google en 2005.

La whitelist de KOM explicada

Nuestra política en kom.pe es coherente con lo que vendemos: visibilidad. Mantenemos una whitelist curada de 16 crawlers de IA con acceso permitido, que cubre los bots de respuesta y visita de los asistentes principales y los recolectores de los ecosistemas donde queremos existir, y gestionamos por firewall la automatización que no se identifica. La lista vive documentada y se revisa trimestralmente contra nuestros logs. [DATO-KOM: whitelist completa de los 16 crawlers con su justificación una por una]

El razonamiento de fondo: como agencia que publica conocimiento, cada cita de un asistente es marketing gratuito, y el costo de ceder contenido a entrenamiento lo compensa la presencia en esos ecosistemas. Un medio que vive de suscripciones puede llegar a la conclusión contraria con la misma lógica. La política correcta no es la nuestra: es la que sale de tu matriz.

Cómo escribir tu política en robots.txt

La estructura recomendada agrupa por decisión, con comentarios para tu yo del futuro:

# Respuesta y visita por usuario: permitidos
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Entrenamiento: decisión según tu matriz
User-agent: GPTBot
Allow: /

User-agent: Google-Extended
Allow: /

# Ejemplo de bloqueo selectivo de rutas
User-agent: ClaudeBot
Disallow: /area-privada/
Allow: /

Dos recordatorios técnicos. El robots.txt es una solicitud que los bots serios respetan y los abusivos ignoran: tu política se completa con reglas de firewall para quien no obedece. Y el orden de especificidad importa: las reglas por agente le ganan a las generales, así que revisa que tu bloque User-agent: * no contradiga lo que decidiste arriba.

¿Cómo mantener viva la política?

Este archivo ya no es de los que se configuran una vez. Tres hábitos lo mantienen útil: revisa trimestralmente las páginas oficiales de los agentes, porque aparecen nuevos y cambian nombres; cruza tu política contra tus logs para confirmar quién la respeta y quién la ignora; y registra cada cambio con fecha y motivo, porque dentro de un año nadie va a recordar por qué se bloqueó tal bot.

Señal de buena salud: tu robots.txt explica tu estrategia sin que tengas que justificarlo en una reunión. Si una línea no tiene razonamiento detrás, es herencia, no política.

Preguntas frecuentes

¿Bloquear Google-Extended afecta mi posicionamiento en Google?

No: el token controla el uso de tu contenido para los modelos de IA de Google, no el rastreo ni la indexación de la búsqueda clásica, que siguen dependiendo de Googlebot. Puedes mantener tu SEO intacto y a la vez negarte al entrenamiento. Son decisiones independientes y así conviene tratarlas.

¿Los crawlers de IA respetan el robots.txt de verdad?

Los de las empresas grandes documentan su cumplimiento y, en la práctica, lo observable en logs es consistente con eso. El cumplimiento no es universal: hay recolectores que ignoran las reglas o se disfrazan. Por eso la arquitectura sana es doble: robots.txt como declaración para los que obedecen, y firewall con límites de frecuencia para los que no.

¿Bloquear bots de entrenamiento me saca de las respuestas de los asistentes?

No de inmediato ni por completo: las respuestas con búsqueda en vivo dependen de los bots de respuesta y visita, que puedes seguir permitiendo. Lo que arriesgas es presencia en el conocimiento base de modelos futuros, un efecto difuso y a largo plazo. Si tu negocio vive de ser recomendado, esa pérdida difusa puede importar más de lo que parece.

¿Cómo me entero cuando aparece un crawler nuevo?

Tres fuentes prácticas: las páginas de documentación de bots de cada empresa de IA, los listados de bots verificados de proveedores como Cloudflare, y tus propios logs, donde los agentes nuevos aparecen antes de que nadie los anuncie. La revisión trimestral de logs es la más confiable: tu servidor no se entera por comunicados.

Tu siguiente paso: abre hoy tu robots.txt y léelo con la tabla al lado. Marca qué agentes tienes decididos, cuáles están por omisión y cuáles ni figuran. Completa tu matriz por tipo de negocio y deja el archivo reflejando decisiones, no inercia.

Escríbenos:

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Categorías

Etiquetas

Más Visitadas

¿Preguntas?
¡Te asesoramos gratis!

Acepto los Términos y Condiciones*

Acepto el uso de datos: Política de Privacidad*

Deseo recibir novedades y ofertas de KOM. (Opcional)

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Si prefieres llámanos o escríbenos...

Estamos atentos a tu comunicación para poder implementar tus nuevas herramientas digitales.

Control de crawlers de IA: GPTBot, ClaudeBot y Google-Extended

¿Por qué importa distinguir entre crawlers de IA?

La tabla 2026: quién es quién y para qué viene

Google-Extended y los tokens que no son bots

¿Bloquear entrenamiento, respuesta o nada? La matriz por negocio

Tres escenarios reales para aterrizar la decisión

La whitelist de KOM explicada

Cómo escribir tu política en robots.txt

¿Cómo mantener viva la política?

Preguntas frecuentes

¿Bloquear Google-Extended afecta mi posicionamiento en Google?

¿Los crawlers de IA respetan el robots.txt de verdad?

¿Bloquear bots de entrenamiento me saca de las respuestas de los asistentes?

¿Cómo me entero cuando aparece un crawler nuevo?

Artículos relacionados

Christian Otero

Escríbenos:

Categorías

Etiquetas