Detectar bots de IA en tus logs toma tres comandos: un grep para contar visitas por agente, un awk para ver qué rutas leen y GoAccess si quieres el reporte visual. Los logs del servidor son la única fuente que registra a estos bots, porque tu analítica de JavaScript no los ve. Aquí están los comandos listos para copiar, la verificación de impostores y la hoja de registro mensual para un sitio de contenido.
Tabla de Contenidos
- 1 ¿Qué te dicen los logs que ninguna analítica te muestra?
- 2 ¿Dónde están tus logs de acceso?
- 3 Los comandos: del conteo rápido al reporte completo
- 4 La plantilla de monitoreo mensual
- 5 ¿Cómo interpretar lo que encuentres?
- 6 Qué hacer con los hallazgos: tres movidas típicas
- 7 Errores de interpretación comunes
- 8 Preguntas frecuentes
¿Qué te dicen los logs que ninguna analítica te muestra?
Tu herramienta de analítica mide navegadores que ejecutan JavaScript, y los rastreadores de IA no lo hacen: piden el HTML y se van. Resultado: GPTBot puede estar leyendo tu blog completo cada semana y tu dashboard mostrando cero. Los logs de acceso del servidor registran cada solicitud sin excepción, con agente, ruta, fecha y origen, así que son el único lugar donde la pregunta me están leyendo los modelos tiene respuesta verificable.
Para un sitio de contenido esta visibilidad es estratégica: confirma si los asistentes que citamos en la guía de GEO para aparecer en ChatGPT, Gemini, Claude y Perplexity están consumiendo tu material, y alimenta la medición que hacemos en el servicio de posicionamiento GEO. Sin logs, toda discusión sobre crawlers es teología.
¿Dónde están tus logs de acceso?
Todos los hostings serios los exponen, con nombres parecidos: busca en tu panel las secciones de logs, registros de acceso o archivos de registro, y descarga el access.log del dominio, que suele rotar por día o por tamaño. El formato típico es el combinado de Apache o Nginx: una línea por solicitud con IP, fecha, ruta, código de respuesta y user agent al final.
Si tu web pasa por Cloudflare, recuerda que parte del tráfico se responde desde su caché y puede no llegar al log de tu servidor: complementa con la analítica de Cloudflare para la foto completa. Para el análisis que sigue basta el log de un mes, y conviene guardar los archivos analizados en una carpeta por periodo, porque los hostings rotan y borran logs viejos sin preguntarte.
Los comandos: del conteo rápido al reporte completo
Paso 1: descarga el log y déjalo a mano
Baja el archivo por el panel o FTP a una carpeta de trabajo. Si viene comprimido como .gz, descomprímelo. Resultado verificable: un access.log legible en tu terminal con líneas del mes en curso.
Paso 2: cuenta las visitas por bot
grep -ciE "gptbot" access.log
grep -ciE "gptbot|claudebot|perplexitybot|oai-searchbot|chatgpt-user|google-extended|ccbot|meta-externalagent" access.log
El primer comando cuenta un agente; el segundo, la familia completa de una pasada. Resultado verificable: un número de solicitudes por bot para el periodo del log.
Paso 3: mira qué rutas leen
grep -iE "gptbot|claudebot|perplexitybot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
Esto lista las 20 URLs más pedidas por esos agentes. En el log combinado estándar la ruta es el campo 7; si tu formato difiere, ajusta el número. Resultado verificable: el top de contenidos que los bots de IA están consumiendo, incluyendo si piden tu llms.txt.
Paso 4: verifica que no sean impostores
grep -i "gptbot" access.log | awk '{print $1}' | sort | uniq -c | sort -rn | head
Saca las IPs que dicen ser cada bot y contrasta las principales con los rangos publicados por cada empresa o con una búsqueda inversa. Un GPTBot desde una IP residencial es un scraper disfrazado. Resultado verificable: tus conteos del paso 2 depurados de falsos.
Paso 5: arma el reporte visual con GoAccess
goaccess access.log --log-format=COMBINED -o reporte.html
GoAccess es gratuito y genera un panel HTML navegable con agentes, rutas y horarios. Útil cuando quieres explorar sin escribir más comandos. Resultado verificable: el archivo reporte.html abierto en tu navegador.
Paso 6: registra los hallazgos del mes
Pasa los números a la hoja de la siguiente sección y guarda el log analizado. Resultado verificable: la fila del mes completa, comparable con la anterior.
La plantilla de monitoreo mensual
Para un sitio de contenido, estas columnas capturan lo que importa sin burocracia:
| Columna | Qué registra | Ejemplo de lectura |
|---|---|---|
| Mes | Periodo analizado | Comparabilidad entre filas |
| Bot | Agente verificado | Un bot por fila |
| Solicitudes | Conteo depurado del paso 4 | Tendencia de interés del ecosistema |
| Rutas top | Las 3 URLs más leídas | Qué contenido alimenta a ese modelo |
| llms.txt | Sí o no lo pidió | Adopción de tu archivo por ese agente |
| Observaciones | Picos, impostores, cambios | Contexto para explicar la serie |
[DATO-KOM: enlace a la hoja de registro descargable]
¿Cómo interpretar lo que encuentres?
Para un sitio de contenido, las lecturas valiosas son tres. Qué leen: si los bots concentran sus visitas en tus guías de fondo, tu contenido evergreen está trabajando; si solo piden la portada, tu arquitectura interna no los está llevando a lo bueno. Quién falta: un asistente importante con cero visitas verificadas merece revisión de robots.txt, firewall y CDN antes de cualquier teoría. Y la tendencia: el dato de un mes es anécdota; la serie de seis meses te dice si tu visibilidad ante los modelos crece o se apaga.
Cruza siempre con tu auditoría de menciones en asistentes: visitas de bots sin citas sugiere contenido leído pero no citable; citas sin visitas recientes sugiere que viven de versiones antiguas de tus páginas y conviene refrescar.
Qué hacer con los hallazgos: tres movidas típicas
El monitoreo solo paga cuando dispara acciones. Tres ejemplos del mundo real. Si descubres que los bots leen tus guías viejas y no las nuevas, el problema suele ser de enlazado interno: tus piezas recientes están huérfanas y ni los rastreadores las encuentran; enlázalas desde las guías que sí visitan. Si un agente pide insistentemente rutas que no existen, revisa qué URLs viejas siguen circulando en sus fuentes y resuélvelo con redirecciones, porque cada 404 servido a un modelo es información tuya que se pierde.
Y si encuentras que nadie pide tu llms.txt después de meses, no lo tomes como fracaso del archivo sino como dato de adopción: el costo de mantenerlo es marginal y la lectura de tu hoja mensual te dirá cuándo eso cambie. La gracia del registro es exactamente esa: convertir debates de fe en decisiones con fecha y evidencia.
Errores de interpretación comunes
Cuatro trampas frecuentes. Contar sin verificar origen e inflar los números con impostores. Asumir que más visitas de bots es éxito en sí mismo, cuando el éxito es ser citado, no solo leído. Olvidar la caché del CDN y declarar muerto a un bot que sí pasa, pero no llega a tu servidor. Y reaccionar a un pico aislado, que puede ser una reindexación puntual, en lugar de mirar la serie. El log es evidencia, no oráculo: pide contexto antes de conclusiones.
Preguntas frecuentes
¿Qué hago si mi hosting no me da acceso a los logs?
Tienes dos salidas: la analítica de bots de Cloudflare si tu web pasa por ahí, que muestra agentes y volúmenes sin tocar el servidor, o evaluar un hosting que sí los entregue, porque el acceso a logs es un básico de operación seria. Pedirlos al soporte también funciona en muchos proveedores: a veces existen, solo que no están en el panel.
¿Puedo correr estos comandos en Windows?
Sí: con WSL tienes un Linux completo dentro de Windows, y Git Bash trae grep y awk suficientes para todo lo de esta guía. GoAccess también tiene opciones para Windows vía WSL. Si prefieres no instalar nada, sube el log a una carpeta y analízalo desde cualquier máquina Linux o Mac del equipo.
¿Con qué frecuencia conviene revisar los logs?
Mensual como rutina, igual que tu auditoría de visibilidad, y una revisión extraordinaria después de cambios de robots.txt, firewall o CDN, para confirmar que no cerraste una puerta sin querer. Más seguido que mensual suele ser ruido, salvo que estés investigando un problema puntual.
¿Un pico de visitas de un bot es buena o mala señal?
Depende del patrón: un pico tras publicar contenido nuevo o actualizar muchas páginas es reindexación esperable; un pico sin causa, concentrado en pocas rutas con parámetros raros, huele a impostor usando el nombre del bot. Por eso el paso de verificación de origen va antes de cualquier celebración o alarma.
Tu siguiente paso: descarga el log de este mes y corre los pasos 2 y 3 hoy; son diez minutos. Con la primera fila de la plantilla llena, tu próxima conversación sobre bots de IA será con datos tuyos en la mesa, no con suposiciones ajenas.








