El Robots.txt es un archivo de texto simple ubicado en la raíz de tu sitio web que le indica a los motores de búsqueda como Google qué páginas o secciones de tu sitio pueden rastrear y cuáles no. Funciona como un «guardia de seguridad digital» que dice a los bots de búsqueda: «puedes entrar aquí, pero no allá». Es una herramienta fundamental del SEO técnico que todo sitio web profesional debe tener correctamente configurado.
Para empresas en Lima, un robots.txt bien configurado asegura que Google rastree e indexe las páginas que importan (servicios, blog, productos) y no desperdicie recursos rastreando páginas irrelevantes (admin, carrito vacío, páginas de login). Un robots.txt mal configurado puede, accidentalmente, bloquear el acceso de Google a tu sitio completo, haciéndote invisible en los resultados de búsqueda.
¿Cómo funciona el Robots.txt?
El archivo robots.txt se ubica en tudominio.pe/robots.txt y contiene directivas simples:
User-agent: Especifica a qué bot se aplica la regla. User-agent: * aplica a todos los bots. User-agent: Googlebot aplica solo al bot de Google.
Disallow: Indica qué URLs o directorios NO debe rastrear el bot. Disallow: /wp-admin/ bloquea el acceso al panel de administración de WordPress.
Allow: Permite el acceso a una URL específica dentro de un directorio bloqueado. Allow: /wp-admin/admin-ajax.php permite acceso a un archivo específico dentro de wp-admin.
Sitemap: Indica la ubicación de tu sitemap XML. Sitemap: https://tudominio.pe/sitemap_index.xml
Ejemplo de robots.txt típico para un sitio WordPress en Lima:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Sitemap: https://tudominio.pe/sitemap_index.xml
¿Qué páginas bloquear con Robots.txt?
Páginas que generalmente debes bloquear para empresas en Lima:
Área de administración: /wp-admin/ (excepto admin-ajax.php que WordPress necesita), /wp-login.php. No hay razón para que Google indexe tu panel de control.
Páginas de carrito y checkout: /cart/, /checkout/. Son páginas dinámicas sin contenido indexable y pueden crear problemas de contenido duplicado.
Páginas de cuenta de usuario: /my-account/, /profile/. Contienen información personal que no debe indexarse.
Resultados de búsqueda interna: /?s=. Las páginas de búsqueda interna son contenido dinámico de bajo valor que puede crear infinite crawl loops.
Páginas de agradecimiento: /gracias/, /thank-you/. No aportan valor SEO y pueden confundir las métricas de conversión si se indexan.
Archivos de feeds: /feed/ si no quieres que Google indexe tus feeds RSS.
¿Qué NO bloquear con Robots.txt?
Estas páginas NUNCA deben bloquearse:
Páginas principales: Home, servicios, productos, blog, contacto. Estas son las páginas que quieres que Google indexe y muestre en los resultados.
CSS y JavaScript: Bloquear archivos CSS y JS impide que Google renderice tu página correctamente, lo que puede perjudicar tu posicionamiento. Google necesita acceder a estos archivos para entender cómo se ve tu página.
Imágenes: No bloquees el acceso a tus imágenes a menos que tengas una razón específica. Las imágenes indexadas generan tráfico desde Google Imágenes.
Robots.txt vs Meta Robots vs Noindex
Es importante entender la diferencia entre estas herramientas:
Robots.txt: Controla el RASTREO (si Google puede acceder a la página). Bloquear una URL en robots.txt no garantiza que no se indexe: Google puede indexar la URL sin rastrearla si otros sitios la enlazan.
Meta Robots (noindex): Controla la INDEXACIÓN (si Google muestra la página en resultados). <meta name="robots" content="noindex"> le dice a Google: «puedes rastrear esta página pero no la muestres en los resultados».
Importante: Si quieres que una página NO aparezca en Google, usa meta noindex, NO robots.txt. Si bloqueas la página con robots.txt, Google no puede leer la etiqueta noindex, y la URL podría seguir apareciendo en los resultados (sin contenido, solo la URL).
Para empresas en Lima, la regla es: usa robots.txt para controlar el rastreo eficiente de tu sitio, y usa meta noindex para controlar qué páginas aparecen en Google.
Cómo configurar Robots.txt en WordPress
Para sitios WordPress de empresas en Lima:
Rank Math: Ve a Rank Math > Configuración General > Editar robots.txt. Puedes editar el archivo directamente desde el panel de WordPress sin acceder al servidor.
Yoast SEO: Ve a SEO > Herramientas > Editor de archivos > robots.txt. Similar funcionalidad que Rank Math.
Manualmente: Crea un archivo llamado «robots.txt» y súbelo a la raíz de tu hosting (la carpeta donde está el archivo index.php de WordPress) usando FTP o el administrador de archivos de tu hosting.
WordPress por defecto: Si no creas un robots.txt, WordPress genera uno virtual básico que permite el rastreo de todo el sitio excepto /wp-admin/.
Errores comunes con Robots.txt
Estos errores pueden dañar seriamente tu SEO:
Bloquear todo el sitio: Disallow: / bloquea el acceso de Google a TODO tu sitio. Este es el error más grave: tu sitio desaparece completamente de Google. Siempre verifica que no tengas esta directiva por accidente.
Bloquear CSS y JS: Impide que Google renderice tu página correctamente. Google puede penalizar sitios cuyo contenido no puede renderizar.
Usar robots.txt para ocultar contenido sensible: El robots.txt es un archivo público. Cualquiera puede ver qué directorios bloqueas visitando tudominio.pe/robots.txt. No lo uses para «esconder» páginas confidenciales; usa contraseñas o autenticación.
No incluir referencia al sitemap: Siempre agrega la línea Sitemap: https://tudominio.pe/sitemap_index.xml para que Google descubra tu sitemap fácilmente.
Sintaxis incorrecta: El robots.txt es sensible a la sintaxis. Un espacio extra, una barra faltante o una mayúscula incorrecta pueden hacer que la directiva no funcione como esperas.
Cómo verificar tu Robots.txt
Herramientas para asegurar que tu robots.txt funciona correctamente:
Google Search Console: La herramienta de prueba de robots.txt de Google te permite verificar si una URL específica está bloqueada o permitida. También muestra errores de sintaxis.
Verificación directa: Visita tudominio.pe/robots.txt en tu navegador para ver el archivo actual.
Screaming Frog: Rastrea tu sitio y muestra qué URLs están bloqueadas por robots.txt, detectando posibles errores de configuración.
Preguntas Frecuentes sobre Robots.txt
Sí, es recomendable para cualquier sitio web profesional. Si no tienes uno, Google rastreará todas las páginas de tu sitio sin restricciones, lo cual puede desperdiciar el «crawl budget» (presupuesto de rastreo) en páginas irrelevantes. Para sitios WordPress en Lima, plugins como Rank Math y Yoast te permiten crear y editar el robots.txt desde el panel de administración en minutos.
Sí, si lo configuras incorrectamente. La directiva Disallow: / bloquea el acceso de Google a TODO tu sitio, haciéndote invisible en los resultados de búsqueda. Este es el error más peligroso del robots.txt. Siempre verifica tu archivo en tudominio.pe/robots.txt y usa la herramienta de prueba de Google Search Console para confirmar que no estás bloqueando páginas importantes.
Robots.txt controla si Google puede RASTREAR (visitar) una página. Noindex controla si Google puede INDEXAR (mostrar en resultados) una página. Si quieres que una página no aparezca en Google, usa meta noindex, no robots.txt. Si bloqueas con robots.txt, Google no puede leer el noindex y la URL podría aparecer en resultados de todas formas. Para empresas en Lima, la regla simple es: robots.txt para eficiencia de rastreo, noindex para controlar qué aparece en Google.
Sí, puedes intentar bloquear bots de IA con robots.txt. Por ejemplo: User-agent: GPTBot seguido de Disallow: / bloquea el bot de OpenAI. Sin embargo, no todos los bots de IA respetan el robots.txt, y bloquearlos significa que tu contenido no será citado por estas plataformas. Para empresas en Lima que quieren ser citadas por ChatGPT y Gemini, NO bloquees estos bots: ser referenciado por IA generativa es una nueva forma valiosa de visibilidad.
Señales de problemas: caída repentina de tráfico orgánico sin razón aparente (podrías estar bloqueando páginas importantes), Google Search Console muestra errores de rastreo, o cuando buscas site:tudominio.pe en Google y faltan páginas que deberían aparecer. Verifica visitando tudominio.pe/robots.txt directamente y usa la herramienta de prueba en Search Console. Si sospechas un error, consulta con tu agencia web o desarrollador en Lima antes de hacer cambios.





