Gratis Hosting
+ Dominio .com
+ Correos Corporativos
+ Certificado SSL
+ Primer año de servicios 100% Gratis.
+Promoción valida para clientes de Diseño Web, Tiendas Virtuales y Landing Pages.

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Control de crawlers de IA: GPTBot, ClaudeBot y Google-Extended

Control de crawlers de IA GPTBot ClaudeBot y Google-Extended en robots.txt 2026

Controlar los crawlers de IA empieza por una distinción que casi nadie hace: unos bots recolectan contenido para entrenar modelos, otros buscan para responder consultas en vivo, y otros visitan tu web porque un usuario se lo pidió a su asistente. Bloquearlos en bloque mezcla tres decisiones distintas con tres consecuencias distintas. Aquí tienes la tabla de quién es quién, la matriz de decisión por tipo de negocio y cómo escribir tu política en robots.txt.

¿Por qué importa distinguir entre crawlers de IA?

Porque el mismo Disallow puede costarte cosas muy diferentes. Bloquear un bot de entrenamiento limita que tu contenido alimente las versiones futuras de un modelo: una decisión legítima de propiedad intelectual con efecto difuso y a largo plazo. Bloquear un bot de búsqueda o de visita por usuario tiene efecto inmediato y concreto: los asistentes dejan de poder citarte y de visitar tus páginas cuando un usuario pregunta por lo tuyo. Son palancas separadas y conviene moverlas por separado.

Esta decisión es la puerta de entrada de toda la visibilidad en asistentes que tratamos en la guía de GEO para aparecer en ChatGPT, Gemini, Claude y Perplexity: ninguna optimización sirve si tu robots.txt cierra la puerta equivocada. Definir esta política es de lo primero que revisamos en el servicio de posicionamiento GEO.

La tabla 2026: quién es quién y para qué viene

Los principales agentes documentados, agrupados por propósito. Las listas cambian seguido: confirma en las páginas oficiales de cada empresa antes de cerrar tu política.

User-agent Empresa Propósito Si lo bloqueas pierdes
GPTBot OpenAI Recolección, principalmente entrenamiento Presencia en futuros entrenamientos
OAI-SearchBot OpenAI Índice de búsqueda para respuestas Citas en respuestas con búsqueda
ChatGPT-User OpenAI Visita en vivo pedida por un usuario Que el asistente pueda abrir tu web al usuario
ClaudeBot Anthropic Recolección para sus modelos Presencia en su ecosistema
PerplexityBot Perplexity Índice para su motor de respuestas Citas en Perplexity
Google-Extended Google Token de control para entrenamiento de sus modelos Nada en Búsqueda; solo uso en sus modelos de IA
Applebot-Extended Apple Token equivalente para sus modelos Nada en sus servicios de búsqueda tradicionales
CCBot Common Crawl Corpus abierto que usan muchos entrenamientos Presencia en datasets derivados
Meta-ExternalAgent Meta Recolección para sus modelos Presencia en su ecosistema
Bytespider ByteDance Recolección agresiva, cumplimiento discutido Poco; suele gestionarse por firewall

Google-Extended y los tokens que no son bots

Google-Extended merece párrafo aparte porque genera la confusión más cara. No es un rastreador adicional: es un token de robots.txt que le dice a Google si puede usar lo que su rastreador normal ya recoge para alimentar sus modelos de IA. Bloquearlo no afecta tu indexación ni tu posicionamiento en la búsqueda clásica; permitirlo no trae más visitas. Es una decisión pura de uso de contenido para entrenamiento.

Applebot-Extended funciona con la misma lógica para Apple. La regla mental: los agentes con sufijo Extended controlan el uso del contenido, no el acceso. Por eso pueden convivir un Googlebot permitido, porque vives del tráfico orgánico, con un Google-Extended bloqueado, porque decidiste no ceder contenido para entrenamiento. Ambas posturas son coherentes a la vez.

¿Bloquear entrenamiento, respuesta o nada? La matriz por negocio

Tipo de negocio Bots de respuesta y visita Bots de entrenamiento Razonamiento
Servicios y B2B Permitir Permitir Vives de ser encontrado y citado; el contenido es vitrina, no producto
Tienda online Permitir Permitir en general Catálogo y políticas ganan siendo legibles en todos lados
Medio o creador con contenido premium Permitir con criterio Evaluar bloqueo El contenido es el producto; ceder entrenamiento gratis es decisión editorial
Documentación SaaS Permitir Permitir Que los asistentes respondan con tu doc reduce soporte

Nota la asimetría: casi nadie gana bloqueando bots de respuesta y visita por usuario, porque son el canal nuevo de descubrimiento. La decisión real está en el entrenamiento, y ahí sí pesan tu modelo de negocio y tu postura sobre propiedad del contenido.

Tres escenarios reales para aterrizar la decisión

Primer escenario: una clínica con blog de salud. Vive de pacientes que preguntan a asistentes por síntomas y especialistas, así que permite respuesta, visita y entrenamiento; su contenido es captación, no producto. Segundo: un portal de cursos de pago. Permite los bots de respuesta para que los asistentes citen sus páginas comerciales, pero bloquea entrenamiento y cierra por robots las rutas del contenido de pago, porque regalar el curso al corpus de un modelo erosiona lo que vende.

Tercero: una tienda con catálogo grande y precios competitivos. Permite todo lo identificado y concentra su energía en el firewall, porque su problema real no son los bots de IA documentados sino los scrapers de precios que se disfrazan. Tres negocios, tres políticas distintas, una sola lógica: decidir por consecuencia, no por miedo.

Fíjate que en los tres casos la respuesta y la visita por usuario quedaron abiertas. Esa constante no es casualidad: es el canal donde se decide la próxima década de descubrimiento, y cerrarlo por reflejo es la versión moderna de esconderse de Google en 2005.

La whitelist de KOM explicada

Nuestra política en kom.pe es coherente con lo que vendemos: visibilidad. Mantenemos una whitelist curada de 16 crawlers de IA con acceso permitido, que cubre los bots de respuesta y visita de los asistentes principales y los recolectores de los ecosistemas donde queremos existir, y gestionamos por firewall la automatización que no se identifica. La lista vive documentada y se revisa trimestralmente contra nuestros logs. [DATO-KOM: whitelist completa de los 16 crawlers con su justificación una por una]

El razonamiento de fondo: como agencia que publica conocimiento, cada cita de un asistente es marketing gratuito, y el costo de ceder contenido a entrenamiento lo compensa la presencia en esos ecosistemas. Un medio que vive de suscripciones puede llegar a la conclusión contraria con la misma lógica. La política correcta no es la nuestra: es la que sale de tu matriz.

Cómo escribir tu política en robots.txt

La estructura recomendada agrupa por decisión, con comentarios para tu yo del futuro:

# Respuesta y visita por usuario: permitidos
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Entrenamiento: decisión según tu matriz
User-agent: GPTBot
Allow: /

User-agent: Google-Extended
Allow: /

# Ejemplo de bloqueo selectivo de rutas
User-agent: ClaudeBot
Disallow: /area-privada/
Allow: /

Dos recordatorios técnicos. El robots.txt es una solicitud que los bots serios respetan y los abusivos ignoran: tu política se completa con reglas de firewall para quien no obedece. Y el orden de especificidad importa: las reglas por agente le ganan a las generales, así que revisa que tu bloque User-agent: * no contradiga lo que decidiste arriba.

¿Cómo mantener viva la política?

Este archivo ya no es de los que se configuran una vez. Tres hábitos lo mantienen útil: revisa trimestralmente las páginas oficiales de los agentes, porque aparecen nuevos y cambian nombres; cruza tu política contra tus logs para confirmar quién la respeta y quién la ignora; y registra cada cambio con fecha y motivo, porque dentro de un año nadie va a recordar por qué se bloqueó tal bot.

Señal de buena salud: tu robots.txt explica tu estrategia sin que tengas que justificarlo en una reunión. Si una línea no tiene razonamiento detrás, es herencia, no política.

Preguntas frecuentes

¿Bloquear Google-Extended afecta mi posicionamiento en Google?

No: el token controla el uso de tu contenido para los modelos de IA de Google, no el rastreo ni la indexación de la búsqueda clásica, que siguen dependiendo de Googlebot. Puedes mantener tu SEO intacto y a la vez negarte al entrenamiento. Son decisiones independientes y así conviene tratarlas.

¿Los crawlers de IA respetan el robots.txt de verdad?

Los de las empresas grandes documentan su cumplimiento y, en la práctica, lo observable en logs es consistente con eso. El cumplimiento no es universal: hay recolectores que ignoran las reglas o se disfrazan. Por eso la arquitectura sana es doble: robots.txt como declaración para los que obedecen, y firewall con límites de frecuencia para los que no.

¿Bloquear bots de entrenamiento me saca de las respuestas de los asistentes?

No de inmediato ni por completo: las respuestas con búsqueda en vivo dependen de los bots de respuesta y visita, que puedes seguir permitiendo. Lo que arriesgas es presencia en el conocimiento base de modelos futuros, un efecto difuso y a largo plazo. Si tu negocio vive de ser recomendado, esa pérdida difusa puede importar más de lo que parece.

¿Cómo me entero cuando aparece un crawler nuevo?

Tres fuentes prácticas: las páginas de documentación de bots de cada empresa de IA, los listados de bots verificados de proveedores como Cloudflare, y tus propios logs, donde los agentes nuevos aparecen antes de que nadie los anuncie. La revisión trimestral de logs es la más confiable: tu servidor no se entera por comunicados.

Tu siguiente paso: abre hoy tu robots.txt y léelo con la tabla al lado. Marca qué agentes tienes decididos, cuáles están por omisión y cuáles ni figuran. Completa tu matriz por tipo de negocio y deja el archivo reflejando decisiones, no inercia.

Picture of Christian Otero
Christian Otero
Founder & CEO @ KOM Agencia Digital | Pionero en Generative Engine Optimization (GEO) y SEO Técnico Internacional | +24 Años escalando operaciones digitales | Ex-Nextel, Entel, Prosegur | Ingeniero de Sistemas con Postgrado en Marketing Digital y Comercio Exterior.
Artículos relacionados
¿Buscas diseñar tu página web?

Escríbenos:

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

¿Preguntas?
¡Te asesoramos gratis!

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Si prefieres llámanos o escríbenos...

Estamos atentos a tu comunicación para poder implementar tus nuevas herramientas digitales.

EMPRESA REGISTRADA Ante SUNAT e INDECOPI PAGO 100% SEGURO A través de KOM Pay TRANSPARENCIA TOTAL Precios 100% Públicos POTENCIADOS CON IA Usamos Inteligencia Artificial