Bloquear scrapers sin volverte invisible para la IA se logra separando bots por identidad verificada, no por sospecha. Los rastreadores legítimos de buscadores y asistentes se identifican y se pueden verificar; los scrapers se disfrazan. La política sana para una tienda online: dejar pasar a los bots verificados, limitar la frecuencia del resto y bloquear solo patrones claramente abusivos. Con Cloudflare esto se configura en una tarde y se ajusta con datos, no con miedo.
Tabla de Contenidos
- 1 ¿Por qué no conviene bloquear todos los bots de tu tienda?
- 2 Quién visita tu tienda: del buscador al scraper de precios
- 3 ¿Cómo se distingue un agente legítimo de un scraper?
- 4 La matriz: a quién dejar pasar, a quién limitar, a quién bloquear
- 5 Cómo configurarlo en Cloudflare sin romper nada
- 6 Señales de que un scraper te está haciendo daño
- 7 ¿Cuánto te cuesta bloquear de más?
- 8 Preguntas frecuentes
¿Por qué no conviene bloquear todos los bots de tu tienda?
La reacción instintiva ante el scraping es cerrar la puerta completa. El problema: una parte enorme de las visitas a una tienda típica son automatizadas, y dentro de ese tráfico están Google indexando tu catálogo, los asistentes de IA que recomiendan productos y las herramientas que monitorean que tu web funcione. Bloquear parejo es quedarte fuera de los tres al mismo tiempo.
El contexto hace que esta decisión importe más que hace unos años: los asistentes investigan y recomiendan compras por sus usuarios, como explicamos en nuestra guía sobre qué es el comercio agéntico y cómo cambia la venta online. Una tienda invisible para esos agentes pierde un canal que recién empieza a crecer. Si tu plataforma actual no te da control fino sobre este tráfico, revisa cómo construimos nuestras tiendas virtuales con WooCommerce: la capa de seguridad con Cloudflare viene incluida en el método.
Quién visita tu tienda: del buscador al scraper de precios
Antes de configurar nada, conviene tener claro el espectro completo. En un extremo están los rastreadores de buscadores, como Googlebot y Bingbot, que alimentan el canal que ya te trae ventas. Cerca de ellos, los bots de IA con identidad pública: GPTBot, ClaudeBot o PerplexityBot, que leen contenido para responder consultas de usuarios. Luego vienen los bots de servicios: monitoreo de uptime, pasarelas validando URLs, herramientas SEO que usas tú mismo o usa tu agencia.
En el otro extremo está el tráfico que sí debería preocuparte. Scrapers de precios que un competidor contrata para copiar tu catálogo cada hora, recolectores de correos, bots que prueban tarjetas robadas en tu checkout y rastreadores que ignoran cualquier regla publicada. La diferencia operativa entre ambos extremos es una sola: los legítimos se identifican y se pueden verificar; los abusivos se disfrazan de navegadores comunes o de bots conocidos.
¿Cómo se distingue un agente legítimo de un scraper?
Hay tres señales que, combinadas, separan a unos de otros. La primera es el user agent: los bots serios declaran nombre y propósito en cada solicitud. La segunda es la verificación de origen: un user agent se puede falsificar, así que las plataformas comprueban que la solicitud venga de las redes que la empresa dueña del bot publica. Cloudflare mantiene un directorio de bots verificados que hace ese cruce por ti.
La tercera señal es el comportamiento. Un rastreador legítimo respeta tu robots.txt, espacia sus solicitudes y no entra a tu checkout. Un scraper agresivo pide cientos de páginas por minuto, recorre solo fichas con precio y vuelve con otra identidad cuando lo frenas. Por eso la decisión no se toma con una regla única sino con una matriz.
La matriz: a quién dejar pasar, a quién limitar, a quién bloquear
Esta es la matriz de decisión que usamos en KOM al configurar la protección de una tienda. Ajústala a tu realidad: si vives de tráfico orgánico, protege el rastreo; si sufres copia de precios, endurece los límites.
| Categoría | Ejemplos | Riesgo si lo dejas | Decisión recomendada |
|---|---|---|---|
| Buscadores verificados | Googlebot, Bingbot | Ninguno: son tu canal orgánico | Permitir siempre |
| Bots de IA verificados | GPTBot, ClaudeBot, PerplexityBot | Bajo: leen contenido público | Permitir, y decidir por robots.txt qué pueden leer |
| Bots de servicios | Monitoreo, herramientas SEO | Bajo: consumo moderado | Permitir con límite de frecuencia |
| Automatización no identificada | Scripts sin user agent claro | Medio: posible scraping | Limitar frecuencia y desafiar |
| Patrones abusivos | Scraping masivo de precios, ataques al checkout | Alto: costos, fraude, copia | Bloquear por regla específica |
Nota el matiz de la segunda fila: permitir el acceso no significa entregar todo. En robots.txt puedes dejar que los bots de IA lean tus categorías y fichas, y cerrarles secciones sin valor citable como el carrito o tu área de clientes.
Cómo configurarlo en Cloudflare sin romper nada
En KOM lo hacemos en este orden, del ajuste más seguro al más agresivo, midiendo el efecto antes de pasar al siguiente.
- Activa la analítica de bots. Antes de bloquear, mira una semana de datos: qué bots llegan, con qué volumen y a qué rutas. Muchas tiendas descubren que su problema real es uno o dos actores, no todo el tráfico automatizado.
- Define tu robots.txt. Declara qué rutas pueden leer los rastreadores de IA y cuáles no. Es una señal voluntaria, pero los bots verificados la respetan y deja tu política documentada.
- Usa las funciones anti-bot de tu plan. Cloudflare trae protección base contra bots maliciosos conocidos y opciones para gestionar rastreadores de IA desde el panel. Empieza con la configuración menos restrictiva y revisa si algo legítimo cayó en la red.
- Crea reglas de límite de frecuencia. Apunta a las rutas sensibles: fichas de producto, búsqueda interna y checkout. Un visitante humano no pide 200 páginas en cinco minutos; un scraper sí.
- Bloquea por excepción, no por defecto. Cuando identifiques un actor abusivo en los datos, escribe una regla específica para ese patrón. Las reglas quirúrgicas envejecen mejor que el bloqueo general.
Revisa el resultado cada semana durante el primer mes. El indicador de que lo hiciste bien: tu carga de servidor baja y tus visitas orgánicas no se mueven.
Señales de que un scraper te está haciendo daño
No todo scraping merece tu energía: que alguien lea tu catálogo una vez al mes es irrelevante. Preocúpate cuando veas estas señales juntas. Picos de consumo de recursos en tu hosting a horas regulares, sin campañas que los expliquen. Un competidor que ajusta sus precios pocas horas después de cada cambio tuyo, de forma consistente. Tus descripciones de producto apareciendo palabra por palabra en otros dominios. Intentos repetidos contra tu página de pago con datos basura.
Cada una de esas señales se confirma en los registros de acceso de tu hosting o en la analítica de Cloudflare: busca direcciones que piden cientos de fichas en ráfagas, siempre las mismas rutas, sin cargar imágenes ni CSS como haría un navegador real. Esa firma de comportamiento es la que conviertes en regla de bloqueo. Documenta lo que encuentres con fechas y capturas: si el caso escala a un reclamo formal, ese registro vale.
¿Cuánto te cuesta bloquear de más?
El costo de pasarte de estricto es silencioso porque no genera errores visibles: tu tienda sigue funcionando, solo que cada vez la encuentran menos. Si frenas a Googlebot con un desafío mal configurado, tu indexación se degrada en semanas. Si bloqueas a los rastreadores de IA, desapareces de las respuestas de los asistentes justo cuando más usuarios les preguntan dónde comprar.
Hay además un costo operativo: los desafíos agresivos también golpean a humanos con navegadores antiguos, VPNs o conexiones móviles lentas, y un porcentaje abandona antes de resolver el captcha. Cada ajuste de seguridad debería pasar por la misma pregunta que cualquier decisión comercial: qué gano, qué pierdo y cómo lo voy a medir.
Preguntas frecuentes
¿El robots.txt es suficiente para frenar a los scrapers?
No. El robots.txt es una solicitud voluntaria: los bots verificados la respetan, los scrapers la ignoran sin consecuencia técnica. Sirve como declaración de política y como filtro para actores legítimos, pero la contención real de un scraper agresivo viene de las reglas de firewall y los límites de frecuencia en tu capa de seguridad.
¿Bloquear bots de IA hace más rápida mi tienda?
El efecto suele ser marginal. Los rastreadores verificados espacian sus visitas y pesan poco frente al tráfico real. La lentitud de una tienda WooCommerce casi siempre viene de hosting insuficiente, plugins pesados o falta de caché, no de GPTBot. Si tu motivo para bloquear es velocidad, primero mide de dónde viene la carga.
¿Cómo verifico que un bot es realmente de quien dice ser?
Cruza dos datos: el user agent declarado y el origen de la solicitud. Las empresas serias publican cómo validar sus rastreadores, y Cloudflare automatiza ese cruce con su directorio de bots verificados. Si un supuesto Googlebot llega desde una red residencial cualquiera, es un impostor y puedes bloquearlo sin riesgo.
¿Qué hago si un competidor copia mis precios con scraping?
Primero confírmalo en los datos: busca patrones de visitas masivas y regulares a tus fichas de producto. Luego aplica límites de frecuencia a esas rutas y desafíos a la automatización no identificada. Y asume el fondo comercial: el precio copiable es la parte débil de una oferta; el servicio, las reseñas y la marca no se scrapean.
Tu siguiente paso: entra hoy a la analítica de bots de tu Cloudflare y mira quién te visitó esta semana. Con esa foto real, aplica la matriz de arriba y configura primero el límite de frecuencia en tus fichas de producto. Es la regla con mejor relación entre protección y riesgo cero de invisibilidad.








