Para detectar bots de IA en tus logs solo necesitas el access.log de tu hosting y un puñado de comandos: cada visita de GPTBot, ClaudeBot, PerplexityBot y compañía queda registrada con su user-agent, fecha y URL leída. Con la tabla de agentes vigente y la plantilla de registro de esta guía sabrás quién te lee, qué páginas le interesan y con qué frecuencia, y decidirás tu robots.txt con datos en lugar de fe.
Tabla de Contenidos
¿Para qué mirar tus logs?
Porque son la única evidencia directa de tu relación con las máquinas: la analítica normal mide humanos (los bots no ejecutan sus scripts), así que toda la actividad de rastreadores de IA sobre tu web es invisible salvo en el log del servidor. Quien dice los asistentes no me leen o me leen muchísimo sin haber mirado su access.log está opinando, no midiendo.
El premio práctico es triple: confirmas si tu contenido está siendo leído por los sistemas que luego responden preguntas de tus clientes (el circuito de qué es el comercio agéntico), detectas bloqueos heredados que te tienen fuera del juego sin saberlo, y construyes la serie histórica que convierte tu estrategia de acceso en decisión informada.
¿Qué user-agents de IA buscar en 2026?
Los protagonistas al cierre de esta edición, agrupados por para qué leen (las listas oficiales de cada operador mandan; verifícalas al armar tu registro):
| User-agent | Operador | Tipo de lectura |
|---|---|---|
| GPTBot | OpenAI | Rastreo general (entrenamiento) |
| OAI-SearchBot | OpenAI | Indexación para búsqueda |
| ChatGPT-User | OpenAI | Lectura bajo demanda (un usuario preguntó) |
| ClaudeBot | Anthropic | Rastreo general |
| Claude-User | Anthropic | Lectura bajo demanda |
| PerplexityBot | Perplexity | Indexación para búsqueda |
| Perplexity-User | Perplexity | Lectura bajo demanda |
| Google-Extended | Token de control para usos de IA (se gestiona en robots.txt) | |
| Bytespider | ByteDance | Rastreo general |
| CCBot | Common Crawl | Corpus abierto (lo usan varios entrenamientos) |
| Amazonbot | Amazon | Rastreo para asistentes y búsqueda |
| Applebot-Extended | Apple | Token de control para usos de IA |
| Meta-ExternalAgent | Meta | Rastreo general |
La columna que más importa es la tercera: el rastreo de entrenamiento alimenta modelos futuros, la indexación alimenta buscadores con IA y la lectura bajo demanda es la más valiosa comercialmente: significa que un usuario real preguntó algo y el asistente vino a tu web a buscar la respuesta en ese instante.
Los comandos listos para copiar
Sobre tu access.log descargado (ajusta el nombre del archivo). El conteo agregado de bots de IA:
grep -ioE "gptbot|oai-searchbot|chatgpt-user|claudebot|claude-user|perplexitybot|perplexity-user|bytespider|ccbot|amazonbot|meta-externalagent" access.log | sort | uniq -c | sort -rn
El top 20 de URLs que lee un bot específico (ejemplo con ClaudeBot):
grep -i "claudebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
La distribución por día de un bot (para ver frecuencia y picos):
grep -i "perplexitybot" access.log | awk '{print $4}' | cut -d: -f1 | tr -d '[' | sort | uniq -c
Si tu formato de log difiere (algunos hostings reordenan campos), el número de columna de awk cambia: imprime una línea completa primero (head -1 access.log) y cuenta en qué posición están la URL y la fecha.
Paso a paso: del log a la decisión
Paso 1: Ubica y descarga tu access.log
Entra al panel de tu hosting y busca la sección de logs de acceso (en cPanel, Métricas; en hPanel, Avanzado). Descarga el archivo del periodo a revisar; si están rotados por día o semana, baja el rango completo del mes. Resultado verificable: un archivo de texto con una línea por visita, que incluye IP, fecha, URL y user-agent.
Paso 2: Cuenta las visitas por bot
Corre el comando de conteo agregado (el primero del bloque de abajo) sobre el archivo. Te devuelve cuántas visitas hizo cada bot de IA en el periodo. Resultado verificable: una lista de user-agents de IA con su número de hits, lista para la hoja.
Paso 3: Identifica qué URLs les interesan
Corre el comando de top de URLs para cada bot relevante. Ahí ves si leen tus fichas de producto, tu blog o solo la portada. Resultado verificable: el top 20 de páginas leídas por cada bot, con su frecuencia.
Paso 4: Clasifica el tipo de lectura
Cruza lo encontrado contra la tabla de user-agents: ¿es rastreo de entrenamiento, indexación para búsqueda o lectura bajo demanda (un usuario preguntó algo y el asistente vino a leer)? Resultado verificable: cada bot de tu lista etiquetado por tipo, porque cada tipo se gestiona distinto.
Paso 5: Registra en la hoja mensual
Llena la plantilla (bot, tipo, hits del mes, top 3 de URLs, variación contra el mes anterior). Veinte minutos que construyen tu serie histórica. Resultado verificable: la fila del mes completa y comparable con la anterior.
Paso 6: Decide tu robots.txt con datos
Con dos o tres meses de registro, revisa tu política de acceso: qué permites, qué limitas y qué bloqueas, ahora con evidencia de quién te lee y para qué. Resultado verificable: cada regla de tu robots.txt tiene una justificación que puedes explicar en una frase.
¿Qué significa cada patrón que encuentres?
Mucha lectura bajo demanda (los agentes -User) sobre fichas y guías: la mejor noticia posible; tus páginas están siendo usadas para responder preguntas reales, y conviene mirar qué URLs concentran esas visitas para producir más de eso. Mucho rastreo de entrenamiento y nada bajo demanda: te leen para aprender, no para citarte aún; revisa la citabilidad de tu contenido. Cero visitas de IA en absoluto: sospecha primero de tu propio robots.txt o del firewall del hosting (bloqueos heredados), después de tu relevancia.
Y el patrón de alerta: un user-agent de la tabla con comportamiento de scraper (miles de hits por hora, rutas sin sentido). Verifícalo contra las IPs oficiales del operador antes de culpar al legítimo: los impostores existen y se gestionan con firewall, no con el robots.txt que el impostor ignora de todos modos.
La plantilla de registro mensual
| Mes | Bot | Tipo | Hits | Top 3 URLs leídas | Variación vs mes anterior |
|---|---|---|---|---|---|
| Junio 2026 | ChatGPT-User | Bajo demanda | (tu dato) | (tus URLs) | (+/-) |
| Junio 2026 | ClaudeBot | Rastreo | (tu dato) | (tus URLs) | (+/-) |
| Junio 2026 | PerplexityBot | Indexación | (tu dato) | (tus URLs) | (+/-) |
Una fila por bot relevante, veinte minutos al mes. La columna de variación es la que cuenta la historia: el crecimiento sostenido de las lecturas bajo demanda es la métrica más honesta de visibilidad agéntica que existe hoy, y sale gratis de un archivo que tu hosting ya genera. Es el tipo de medición con la que cerramos cada optimización en nuestras tiendas virtuales.
Preguntas frecuentes
¿Mi hosting me da acceso a los logs?
Los paneles clásicos (cPanel, hPanel de Hostinger) incluyen acceso a logs o métricas de visitas sin filtrar; en hostings administrados como Rocket.net los encuentras en el panel o los pide soporte en un ticket. Si tu proveedor no puede dártelos de ninguna forma, esa opacidad es un dato sobre tu proveedor: el log es tuyo, porque el tráfico es tuyo.
¿Un bot puede falsificar su user-agent?
Sí, y ocurre: el user-agent es una declaración, no una prueba. Los operadores serios publican rangos de IP o verificación por DNS inverso para confirmar autenticidad, y vale usarlos si ves patrones raros (un GPTBot que martilla como scraper probablemente no es GPTBot). Para el registro mensual normal, el user-agent como primera capa es suficiente.
¿Las visitas de bots de IA encarecen mi hosting?
Consumen transferencia y procesamiento como cualquier visita, pero en una web optimizada el costo marginal es bajo y la caché absorbe la mayoría. El problema real es el bot abusivo (miles de hits por hora): para ese existen los límites de tasa y las reglas del firewall, no el bloqueo general de todo lo que diga IA, que te saca de las respuestas.
¿Cada cuánto debo revisar los logs?
Mensual para el registro de tendencia (la plantilla de esta guía toma veinte minutos) y puntual después de cambios grandes: robots.txt editado, migración, contenido nuevo importante. La serie mensual es la que paga: ver crecer las lecturas bajo demanda trimestre a trimestre es la evidencia de que tu visibilidad agéntica avanza.
Descarga hoy el access.log del mes pasado y corre el primer comando: en cinco minutos sabrás si las IA te leen o si llevas meses bloqueándolas sin querer. Con ese dato en la mano, todo lo demás de este cluster se vuelve plan, no teoría. ¿Quieres el diagnóstico completo de logs, accesos y visibilidad agéntica hecho por nosotros? Pide tu propuesta en el cotizador online.








