Gratis Hosting
+ Dominio .com
+ Correos Corporativos
+ Certificado SSL
+ Primer año de servicios 100% Gratis.
+Promoción valida para clientes de Diseño Web, Tiendas Virtuales y Landing Pages.

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Detecta bots de IA en tus logs: comandos y plantilla

Comandos grep y GoAccess para detectar bots de IA en logs del servidor web con plantilla mensual

Detectar bots de IA en tus logs toma tres comandos: un grep para contar visitas por agente, un awk para ver qué rutas leen y GoAccess si quieres el reporte visual. Los logs del servidor son la única fuente que registra a estos bots, porque tu analítica de JavaScript no los ve. Aquí están los comandos listos para copiar, la verificación de impostores y la hoja de registro mensual para un sitio de contenido.

¿Qué te dicen los logs que ninguna analítica te muestra?

Tu herramienta de analítica mide navegadores que ejecutan JavaScript, y los rastreadores de IA no lo hacen: piden el HTML y se van. Resultado: GPTBot puede estar leyendo tu blog completo cada semana y tu dashboard mostrando cero. Los logs de acceso del servidor registran cada solicitud sin excepción, con agente, ruta, fecha y origen, así que son el único lugar donde la pregunta me están leyendo los modelos tiene respuesta verificable.

Para un sitio de contenido esta visibilidad es estratégica: confirma si los asistentes que citamos en la guía de GEO para aparecer en ChatGPT, Gemini, Claude y Perplexity están consumiendo tu material, y alimenta la medición que hacemos en el servicio de posicionamiento GEO. Sin logs, toda discusión sobre crawlers es teología.

¿Dónde están tus logs de acceso?

Todos los hostings serios los exponen, con nombres parecidos: busca en tu panel las secciones de logs, registros de acceso o archivos de registro, y descarga el access.log del dominio, que suele rotar por día o por tamaño. El formato típico es el combinado de Apache o Nginx: una línea por solicitud con IP, fecha, ruta, código de respuesta y user agent al final.

Si tu web pasa por Cloudflare, recuerda que parte del tráfico se responde desde su caché y puede no llegar al log de tu servidor: complementa con la analítica de Cloudflare para la foto completa. Para el análisis que sigue basta el log de un mes, y conviene guardar los archivos analizados en una carpeta por periodo, porque los hostings rotan y borran logs viejos sin preguntarte.

Los comandos: del conteo rápido al reporte completo

Paso 1: descarga el log y déjalo a mano

Baja el archivo por el panel o FTP a una carpeta de trabajo. Si viene comprimido como .gz, descomprímelo. Resultado verificable: un access.log legible en tu terminal con líneas del mes en curso.

Paso 2: cuenta las visitas por bot

grep -ciE "gptbot" access.log
grep -ciE "gptbot|claudebot|perplexitybot|oai-searchbot|chatgpt-user|google-extended|ccbot|meta-externalagent" access.log

El primer comando cuenta un agente; el segundo, la familia completa de una pasada. Resultado verificable: un número de solicitudes por bot para el periodo del log.

Paso 3: mira qué rutas leen

grep -iE "gptbot|claudebot|perplexitybot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

Esto lista las 20 URLs más pedidas por esos agentes. En el log combinado estándar la ruta es el campo 7; si tu formato difiere, ajusta el número. Resultado verificable: el top de contenidos que los bots de IA están consumiendo, incluyendo si piden tu llms.txt.

Paso 4: verifica que no sean impostores

grep -i "gptbot" access.log | awk '{print $1}' | sort | uniq -c | sort -rn | head

Saca las IPs que dicen ser cada bot y contrasta las principales con los rangos publicados por cada empresa o con una búsqueda inversa. Un GPTBot desde una IP residencial es un scraper disfrazado. Resultado verificable: tus conteos del paso 2 depurados de falsos.

Paso 5: arma el reporte visual con GoAccess

goaccess access.log --log-format=COMBINED -o reporte.html

GoAccess es gratuito y genera un panel HTML navegable con agentes, rutas y horarios. Útil cuando quieres explorar sin escribir más comandos. Resultado verificable: el archivo reporte.html abierto en tu navegador.

Paso 6: registra los hallazgos del mes

Pasa los números a la hoja de la siguiente sección y guarda el log analizado. Resultado verificable: la fila del mes completa, comparable con la anterior.

La plantilla de monitoreo mensual

Para un sitio de contenido, estas columnas capturan lo que importa sin burocracia:

Columna Qué registra Ejemplo de lectura
Mes Periodo analizado Comparabilidad entre filas
Bot Agente verificado Un bot por fila
Solicitudes Conteo depurado del paso 4 Tendencia de interés del ecosistema
Rutas top Las 3 URLs más leídas Qué contenido alimenta a ese modelo
llms.txt Sí o no lo pidió Adopción de tu archivo por ese agente
Observaciones Picos, impostores, cambios Contexto para explicar la serie

[DATO-KOM: enlace a la hoja de registro descargable]

¿Cómo interpretar lo que encuentres?

Para un sitio de contenido, las lecturas valiosas son tres. Qué leen: si los bots concentran sus visitas en tus guías de fondo, tu contenido evergreen está trabajando; si solo piden la portada, tu arquitectura interna no los está llevando a lo bueno. Quién falta: un asistente importante con cero visitas verificadas merece revisión de robots.txt, firewall y CDN antes de cualquier teoría. Y la tendencia: el dato de un mes es anécdota; la serie de seis meses te dice si tu visibilidad ante los modelos crece o se apaga.

Cruza siempre con tu auditoría de menciones en asistentes: visitas de bots sin citas sugiere contenido leído pero no citable; citas sin visitas recientes sugiere que viven de versiones antiguas de tus páginas y conviene refrescar.

Qué hacer con los hallazgos: tres movidas típicas

El monitoreo solo paga cuando dispara acciones. Tres ejemplos del mundo real. Si descubres que los bots leen tus guías viejas y no las nuevas, el problema suele ser de enlazado interno: tus piezas recientes están huérfanas y ni los rastreadores las encuentran; enlázalas desde las guías que sí visitan. Si un agente pide insistentemente rutas que no existen, revisa qué URLs viejas siguen circulando en sus fuentes y resuélvelo con redirecciones, porque cada 404 servido a un modelo es información tuya que se pierde.

Y si encuentras que nadie pide tu llms.txt después de meses, no lo tomes como fracaso del archivo sino como dato de adopción: el costo de mantenerlo es marginal y la lectura de tu hoja mensual te dirá cuándo eso cambie. La gracia del registro es exactamente esa: convertir debates de fe en decisiones con fecha y evidencia.

Errores de interpretación comunes

Cuatro trampas frecuentes. Contar sin verificar origen e inflar los números con impostores. Asumir que más visitas de bots es éxito en sí mismo, cuando el éxito es ser citado, no solo leído. Olvidar la caché del CDN y declarar muerto a un bot que sí pasa, pero no llega a tu servidor. Y reaccionar a un pico aislado, que puede ser una reindexación puntual, en lugar de mirar la serie. El log es evidencia, no oráculo: pide contexto antes de conclusiones.

Preguntas frecuentes

¿Qué hago si mi hosting no me da acceso a los logs?

Tienes dos salidas: la analítica de bots de Cloudflare si tu web pasa por ahí, que muestra agentes y volúmenes sin tocar el servidor, o evaluar un hosting que sí los entregue, porque el acceso a logs es un básico de operación seria. Pedirlos al soporte también funciona en muchos proveedores: a veces existen, solo que no están en el panel.

¿Puedo correr estos comandos en Windows?

Sí: con WSL tienes un Linux completo dentro de Windows, y Git Bash trae grep y awk suficientes para todo lo de esta guía. GoAccess también tiene opciones para Windows vía WSL. Si prefieres no instalar nada, sube el log a una carpeta y analízalo desde cualquier máquina Linux o Mac del equipo.

¿Con qué frecuencia conviene revisar los logs?

Mensual como rutina, igual que tu auditoría de visibilidad, y una revisión extraordinaria después de cambios de robots.txt, firewall o CDN, para confirmar que no cerraste una puerta sin querer. Más seguido que mensual suele ser ruido, salvo que estés investigando un problema puntual.

¿Un pico de visitas de un bot es buena o mala señal?

Depende del patrón: un pico tras publicar contenido nuevo o actualizar muchas páginas es reindexación esperable; un pico sin causa, concentrado en pocas rutas con parámetros raros, huele a impostor usando el nombre del bot. Por eso el paso de verificación de origen va antes de cualquier celebración o alarma.

Tu siguiente paso: descarga el log de este mes y corre los pasos 2 y 3 hoy; son diez minutos. Con la primera fila de la plantilla llena, tu próxima conversación sobre bots de IA será con datos tuyos en la mesa, no con suposiciones ajenas.



Picture of Christian Otero
Christian Otero
Founder & CEO @ KOM Agencia Digital | Pionero en Generative Engine Optimization (GEO) y SEO Técnico Internacional | +24 Años escalando operaciones digitales | Ex-Nextel, Entel, Prosegur | Ingeniero de Sistemas con Postgrado en Marketing Digital y Comercio Exterior.
Artículos relacionados
¿Buscas diseñar tu página web?

Escríbenos:

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

¿Preguntas?
¡Te asesoramos gratis!

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Si prefieres llámanos o escríbenos...

Estamos atentos a tu comunicación para poder implementar tus nuevas herramientas digitales.

EMPRESA REGISTRADA Ante SUNAT e INDECOPI PAGO 100% SEGURO A través de KOM Pay TRANSPARENCIA TOTAL Precios 100% Públicos POTENCIADOS CON IA Usamos Inteligencia Artificial