Gratis Hosting
+ Dominio .com
+ Correos Corporativos
+ Certificado SSL
+ Primer año de servicios 100% Gratis.
+Promoción valida para clientes de Diseño Web, Tiendas Virtuales y Landing Pages.

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Cómo optimizar el archivo robots.txt en WordPress

robots.txt WordPress — SEO técnico en Perú | KOM Agencia Digital

El archivo robots.txt es uno de esos elementos que casi nadie mira pero que puede arruinar todo tu SEO si está mal configurado. Es un archivo de texto plano que vive en la raíz de tu dominio y que les dice a los bots de Google, Bing y compañía qué partes de tu sitio pueden rastrear y cuáles no. Suena simple, pero en WordPress se vuelve interesante porque la plataforma genera un robots virtual editable que muchos ni siquiera saben que existe.

En esta guía vas a aprender cómo optimizar el archivo robots.txt en WordPress paso a paso, qué directivas usar, cómo declarar tu sitemap, casos comunes según el tipo de sitio que tengas y los errores típicos que pueden hacer que Google deje de rastrearte sin que te enteres.

Qué es robots.txt y por qué importa en WordPress

El archivo robots.txt sigue un estándar conocido como Robots Exclusion Protocol, creado en 1994 y respetado voluntariamente por la mayoría de los buscadores serios. Es la primera puerta que tocan los bots cuando llegan a tu dominio: antes de rastrear cualquier URL, descargan tu robots.txt y leen las reglas.

El archivo vive en la raíz del dominio, accesible siempre en https://tudominio.com/robots.txt. Esa ubicación es fija por estándar. Si lo pones en otra ruta, los bots no lo van a encontrar. Es una de las pocas reglas absolutas del SEO técnico.

En WordPress, desde la versión 7.0, la plataforma genera un robots.txt virtual editable desde los ajustes del panel. Esto significa que aunque no exista físicamente un archivo en tu servidor, cuando alguien pide la URL https://tudominio.com/robots.txt, WordPress responde con el contenido que tú configures en su interfaz. Esto facilita mucho la gestión: no hace falta acceder por FTP ni subir archivos a mano.

Estructura básica de un archivo robots.txt

El archivo se compone de bloques de reglas. Cada bloque empieza por una directiva User-agent que especifica a qué bot se aplican las reglas, seguida de una o más líneas de Allow o Disallow que indican qué rutas se permiten o se bloquean.

El User-agent puede ser un nombre específico como Googlebot, Bingbot o ChatGPT-User, o puede ser un asterisco que significa todos los bots. Las directivas Disallow y Allow trabajan sobre rutas relativas al dominio, no sobre URLs completas.

Una estructura mínima de robots.txt para WordPress suele tener un bloque para todos los bots permitiendo el rastreo general, una línea Disallow para el directorio de administración y una declaración del sitemap al final. Esa configuración cubre el 80% de los casos.

Es importante saber que las reglas se interpretan de arriba hacia abajo y que Allow tiene prioridad sobre Disallow cuando se solapan. Esto te permite bloquear un directorio completo pero permitir específicamente algunos archivos dentro de él.

Directivas Allow y Disallow en detalle

La directiva Disallow se usa para bloquear el rastreo de rutas específicas. Por ejemplo, Disallow: /wp-admin/ le dice a los bots que no rastreen nada que empiece con esa ruta. Esto es útil para que los robots no pierdan tiempo en zonas privadas del sitio.

La directiva Allow es el complemento. Sirve para crear excepciones dentro de zonas bloqueadas. El caso más típico en WordPress es bloquear /wp-admin/ pero permitir explícitamente /wp-admin/admin-ajax.php, porque ese archivo es el endpoint que muchos plugins usan para funciones del frontend y bloquearlo puede romper funcionalidades.

Las rutas admiten el uso del comodín asterisco para representar cualquier secuencia de caracteres, y el símbolo dólar para indicar el final de la URL. Por ejemplo, Disallow: /*.pdf$ bloquea todas las URLs que terminen en .pdf. Estos comodines son muy útiles para reglas que afecten a patrones específicos.

Una cosa importante: Disallow no es lo mismo que noindex. Disallow le impide al bot rastrear la URL, pero si esa URL ya tiene enlaces externos, puede aparecer en Google sin descripción ni título. Si lo que quieres es que algo no aparezca en los resultados, usa la etiqueta noindex en lugar de Disallow.

Cómo declarar el sitemap en robots.txt

Al final del archivo, después de todas las reglas, conviene declarar la URL completa del sitemap. La línea queda así: Sitemap: https://tudominio.com/sitemap_index.xml.

Esta declaración es independiente de los bloques User-agent y se aplica a todos los buscadores que lean el archivo. Es una forma adicional de avisarle a Google, Bing y los demás dónde está tu sitemap, sumada al envío directo desde Search Console y Bing Webmaster Tools.

Puedes declarar más de un sitemap si tu sitio los tiene divididos. Por ejemplo, si tienes un sitemap específico para imágenes o uno para noticias, los pones en líneas separadas, cada uno con su URL completa.

Crawl-delay y los bots que lo respetan

La directiva Crawl-delay permite indicar cuántos segundos debe esperar un bot entre solicitud y solicitud. Sirve para reducir la carga sobre servidores pequeños cuando un buscador agresivo está rastreando mucho contenido en poco tiempo.

Hay un matiz importante: Google no respeta Crawl-delay desde hace años. Si quieres controlar la velocidad de rastreo de Googlebot, tienes que hacerlo desde Search Console, en los ajustes de tasa de rastreo. Bing y Yandex sí respetan la directiva, así que poner Crawl-delay: 10 le pide a Bingbot que espere 10 segundos entre solicitudes.

En la práctica, salvo que tengas un servidor muy ajustado o estés notando picos de carga por rastreo, no es necesario configurar Crawl-delay. Los bots modernos están bien afinados para no saturar sitios normales. Si tu hosting compartido se cae cuando viene el bot, primero conviene revisar el hosting antes que limitar el rastreo.

Cómo editar robots.txt en WordPress

Hay tres formas principales de editar el robots.txt en WordPress. La más simple aprovecha el editor nativo que viene desde la versión 7.0. Entras a los ajustes de lectura del panel y ahí encuentras un campo para editar el contenido del archivo virtual. Lo que escribas se sirve directamente cuando alguien accede a la URL del robots.

La segunda opción es usar un plugin SEO. Tanto Rank Math como Yoast traen su propio editor de robots.txt dentro de sus ajustes. La ventaja es que ya vienen con plantillas razonables por defecto y puedes editarlas desde una interfaz cómoda.

La tercera opción es subir un archivo robots.txt físico a la raíz del servidor por FTP. Esto sobrescribe el robots virtual de WordPress y toma prioridad. Es la forma más manual y suele usarse cuando se necesita un control muy específico o cuando hay restricciones en el panel.

Cuando edites el robots.txt, hazlo con cuidado y siempre prueba después. Un error mínimo, como un Disallow mal colocado, puede bloquear el rastreo de tu sitio entero. El daño es invisible para el usuario pero brutal para el SEO.

Configuraciones recomendadas según el tipo de sitio

Para un blog o sitio web informativo en WordPress, lo más común es bloquear el directorio /wp-admin/, permitir admin-ajax.php y declarar el sitemap. Esa configuración deja todo el contenido público accesible sin desperdiciar rastreo en zonas privadas.

Para una tienda con WooCommerce, además de lo anterior, conviene bloquear las rutas del carrito, el checkout y el área de cuenta, porque son URLs que cambian dinámicamente y no aportan valor SEO. Las páginas de producto y de categoría sí deben quedar abiertas al rastreo.

Para sitios con búsqueda interna o filtros avanzados, conviene bloquear los parámetros de URL que generan páginas duplicadas. Por ejemplo, si tu tienda permite filtrar productos por color y talla, esos filtros generan URLs casi infinitas que pueden inflar el presupuesto de rastreo. Un Disallow al patrón con asterisco resuelve el problema.

Para sitios membership o con contenido cerrado, hay que ser cuidadoso de no bloquear las URLs de pago o de registro que sí necesitan ser indexadas, mientras se bloquean las zonas de usuario logueado. Esto requiere análisis específico de cada caso.

Errores comunes que penalizan tu SEO

El error más grave es poner Disallow: / sin querer. Esa línea bloquea el rastreo del sitio entero. Suele pasar cuando alguien lanza una web en staging con esa regla para evitar indexación, y luego la pasa a producción sin quitarla. Cuando se descubre, el sitio ya está fuera del índice de Google.

Otro error frecuente es bloquear recursos que Google necesita para renderizar correctamente la página. Si bloqueas las carpetas de CSS o JavaScript, Google ve tu sitio como si tuviera mil años, sin estilos, y eso afecta la evaluación de mobile-friendly y de Core Web Vitals. La regla actual es dejar el rastreo de recursos abierto.

También es común tener inconsistencia entre lo bloqueado en robots.txt y lo declarado en sitemap. Si tu sitemap incluye URLs que están bloqueadas por robots.txt, Google reporta esas URLs como excluidas en Search Console y se ve mal en los reportes. Lo correcto es ser coherente: si una URL está en el sitemap es porque la quieres indexada, por lo tanto no la bloquees.

Un error más sutil es usar robots.txt para intentar ocultar contenido sensible. Robots.txt es un archivo público, cualquiera puede leerlo. Si pones Disallow a una ruta secreta, le estás dando un mapa a quien quiera atacarte. La seguridad se hace con autenticación, no con robots.txt.

Cómo probar el robots.txt antes y después de editar

Google Search Console tenía una herramienta clásica de prueba de robots.txt que fue descontinuada en 2023. Hoy la validación se hace desde otras vías. La más práctica es usar el reporte de cobertura de Search Console, que te indica si alguna URL importante quedó bloqueada por robots.txt.

También puedes usar herramientas externas como las de Ahrefs, SEMrush o Screaming Frog, que simulan el rastreo de Googlebot y te muestran qué URLs están bloqueadas. Son útiles especialmente para sitios grandes donde un cambio en robots puede afectar a miles de páginas.

Lo mínimo, después de cualquier edición, es abrir tu robots.txt en el navegador, verificar que cargue correctamente y revisar línea por línea que las reglas son las que esperas. Suena básico pero un buen porcentaje de errores se detecta así, simplemente leyendo.

Preguntas frecuentes

¿Es obligatorio tener un archivo robots.txt en mi WordPress?

No es obligatorio en el sentido estricto, pero sí muy recomendable. Sin robots.txt, los buscadores asumen que pueden rastrear todo el sitio, lo que normalmente está bien para sitios pequeños. Sin embargo, configurar un robots.txt básico te permite controlar mejor el rastreo, declarar tu sitemap y evitar que los bots pierdan tiempo en zonas administrativas.

¿Dónde se ubica el archivo robots.txt en WordPress?

El archivo robots.txt siempre vive en la raíz del dominio, accesible en https://tudominio.com/robots.txt. En WordPress desde la versión 7.0, esta ruta sirve un archivo virtual generado por la plataforma, editable desde los ajustes de lectura. Si subes uno físico por FTP, ese reemplaza al virtual.

¿Bloquear el wp-admin afecta a Google Search Console?

No, porque Search Console no rastrea esa zona de tu sitio. Lo que sí debes asegurarte es de permitir explícitamente admin-ajax.php, porque varios plugins lo usan para funciones del frontend y bloquearlo puede causar problemas de renderizado para Google.

¿Cuál es la diferencia entre Disallow y noindex?

Disallow le impide al bot rastrear la URL, mientras que noindex le permite rastrearla pero le pide que no la incluya en los resultados. Si quieres que una página realmente no aparezca en Google, usa noindex, no Disallow. Disallow solo bloquea el rastreo, pero la URL puede seguir apareciendo en los resultados sin descripción.

¿Google respeta la directiva Crawl-delay?

No, Google dejó de respetarla hace años. Si quieres controlar la velocidad con la que Googlebot rastrea tu sitio, tienes que ajustarlo desde Search Console, no desde robots.txt. Bing y Yandex sí respetan Crawl-delay, así que esa directiva sigue siendo útil para esos buscadores.

¿Puedo bloquear bots de IA como ChatGPT con robots.txt?

Sí, puedes agregar bloques User-agent específicos para bots como GPTBot, ChatGPT-User, ClaudeBot, PerplexityBot y otros, con sus correspondientes Disallow para bloquear el rastreo. Eso sí, hay que tener en cuenta que algunos de estos bots respetan las reglas y otros no, y la lista cambia con el tiempo.

¿Qué pasa si tengo errores en el robots.txt?

Depende del error. Si es de sintaxis, Google y Bing ignoran las líneas mal escritas pero el resto del archivo sigue funcionando. Si es de lógica, por ejemplo bloquear el sitio entero por error, las consecuencias pueden ser graves y rápidas: pérdida de tráfico, caída de URLs indexadas y advertencias en Search Console.

¿Debo declarar más de un sitemap en el robots.txt?

Solo si realmente tienes más de un sitemap separado. Si tu plugin SEO genera un sitemap_index.xml que internamente referencia los sub-sitemaps, basta con declarar solo el índice principal. Declarar todos los sub-sitemaps por separado es redundante.

¿Cómo verifico que mi robots.txt está bien?

Abre la URL https://tudominio.com/robots.txt en el navegador y revisa el contenido. Después usa el reporte de cobertura de Google Search Console para verificar que ninguna URL importante esté bloqueada accidentalmente. Para sitios grandes, herramientas como Screaming Frog simulan el rastreo y te dan un informe detallado.

Picture of Christian Otero
Christian Otero
Founder & CEO @ KOM Agencia Digital | Pionero en Generative Engine Optimization (GEO) y SEO Técnico Internacional | +24 Años escalando operaciones digitales | Ex-Nextel, Entel, Prosegur | Ingeniero de Sistemas con Postgrado en Marketing Digital y Comercio Exterior.
Artículos relacionados
¿Buscas diseñar tu página web?

Escríbenos:

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

¿Preguntas?
¡Te asesoramos gratis!

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Si prefieres llámanos o escríbenos...

Estamos atentos a tu comunicación para poder implementar tus nuevas herramientas digitales.

EMPRESA REGISTRADA Ante SUNAT e INDECOPI PAGO 100% SEGURO A través de KOM Pay TRANSPARENCIA TOTAL Precios 100% Públicos POTENCIADOS CON IA Usamos Inteligencia Artificial