Glosario del SEO

¿Qué es un Robots.txt?

Autor: Christian Otero | Creado: 19/02/2022 | Actualizado: 01/04/2026 a las 01:32

Atrae a más clientes con Google Ads

O llámanos para crear y optimizar
una campaña exitosa.

Proveedor de páginas web en Perú – Empresa de diseño web – Servicio de diseño web en Perú – Diseño de páginas web para empresas – Agencia de diseño web en Perú

El Robots.txt es un archivo de texto simple ubicado en la raíz de tu sitio web que le indica a los motores de búsqueda como Google qué páginas o secciones de tu sitio pueden rastrear y cuáles no. Funciona como un «guardia de seguridad digital» que dice a los bots de búsqueda: «puedes entrar aquí, pero no allá». Es una herramienta fundamental del SEO técnico que todo sitio web profesional debe tener correctamente configurado.

Para empresas en Lima, un robots.txt bien configurado asegura que Google rastree e indexe las páginas que importan (servicios, blog, productos) y no desperdicie recursos rastreando páginas irrelevantes (admin, carrito vacío, páginas de login). Un robots.txt mal configurado puede, accidentalmente, bloquear el acceso de Google a tu sitio completo, haciéndote invisible en los resultados de búsqueda.

¿Cómo funciona el Robots.txt?

El archivo robots.txt se ubica en tudominio.pe/robots.txt y contiene directivas simples:

User-agent: Especifica a qué bot se aplica la regla. User-agent: * aplica a todos los bots. User-agent: Googlebot aplica solo al bot de Google.

Disallow: Indica qué URLs o directorios NO debe rastrear el bot. Disallow: /wp-admin/ bloquea el acceso al panel de administración de WordPress.

Allow: Permite el acceso a una URL específica dentro de un directorio bloqueado. Allow: /wp-admin/admin-ajax.php permite acceso a un archivo específico dentro de wp-admin.

Sitemap: Indica la ubicación de tu sitemap XML. Sitemap: https://tudominio.pe/sitemap_index.xml

Ejemplo de robots.txt típico para un sitio WordPress en Lima:

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-login.php Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/

Sitemap: https://tudominio.pe/sitemap_index.xml

¿Qué páginas bloquear con Robots.txt?

Páginas que generalmente debes bloquear para empresas en Lima:

Área de administración: /wp-admin/ (excepto admin-ajax.php que WordPress necesita), /wp-login.php. No hay razón para que Google indexe tu panel de control.

Páginas de carrito y checkout: /cart/, /checkout/. Son páginas dinámicas sin contenido indexable y pueden crear problemas de contenido duplicado.

Páginas de cuenta de usuario: /my-account/, /profile/. Contienen información personal que no debe indexarse.

Resultados de búsqueda interna: /?s=. Las páginas de búsqueda interna son contenido dinámico de bajo valor que puede crear infinite crawl loops.

Páginas de agradecimiento: /gracias/, /thank-you/. No aportan valor SEO y pueden confundir las métricas de conversión si se indexan.

Archivos de feeds: /feed/ si no quieres que Google indexe tus feeds RSS.

¿Qué NO bloquear con Robots.txt?

Estas páginas NUNCA deben bloquearse:

Páginas principales: Home, servicios, productos, blog, contacto. Estas son las páginas que quieres que Google indexe y muestre en los resultados.

CSS y JavaScript: Bloquear archivos CSS y JS impide que Google renderice tu página correctamente, lo que puede perjudicar tu posicionamiento. Google necesita acceder a estos archivos para entender cómo se ve tu página.

Imágenes: No bloquees el acceso a tus imágenes a menos que tengas una razón específica. Las imágenes indexadas generan tráfico desde Google Imágenes.

Robots.txt vs Meta Robots vs Noindex

Es importante entender la diferencia entre estas herramientas:

Robots.txt: Controla el RASTREO (si Google puede acceder a la página). Bloquear una URL en robots.txt no garantiza que no se indexe: Google puede indexar la URL sin rastrearla si otros sitios la enlazan.

Meta Robots (noindex): Controla la INDEXACIÓN (si Google muestra la página en resultados). <meta name="robots" content="noindex"> le dice a Google: «puedes rastrear esta página pero no la muestres en los resultados».

Importante: Si quieres que una página NO aparezca en Google, usa meta noindex, NO robots.txt. Si bloqueas la página con robots.txt, Google no puede leer la etiqueta noindex, y la URL podría seguir apareciendo en los resultados (sin contenido, solo la URL).

Para empresas en Lima, la regla es: usa robots.txt para controlar el rastreo eficiente de tu sitio, y usa meta noindex para controlar qué páginas aparecen en Google.

Cómo configurar Robots.txt en WordPress

Para sitios WordPress de empresas en Lima:

Rank Math: Ve a Rank Math > Configuración General > Editar robots.txt. Puedes editar el archivo directamente desde el panel de WordPress sin acceder al servidor.

Yoast SEO: Ve a SEO > Herramientas > Editor de archivos > robots.txt. Similar funcionalidad que Rank Math.

Manualmente: Crea un archivo llamado «robots.txt» y súbelo a la raíz de tu hosting (la carpeta donde está el archivo index.php de WordPress) usando FTP o el administrador de archivos de tu hosting.

WordPress por defecto: Si no creas un robots.txt, WordPress genera uno virtual básico que permite el rastreo de todo el sitio excepto /wp-admin/.

Errores comunes con Robots.txt

Estos errores pueden dañar seriamente tu SEO:

Bloquear todo el sitio: Disallow: / bloquea el acceso de Google a TODO tu sitio. Este es el error más grave: tu sitio desaparece completamente de Google. Siempre verifica que no tengas esta directiva por accidente.

Bloquear CSS y JS: Impide que Google renderice tu página correctamente. Google puede penalizar sitios cuyo contenido no puede renderizar.

Usar robots.txt para ocultar contenido sensible: El robots.txt es un archivo público. Cualquiera puede ver qué directorios bloqueas visitando tudominio.pe/robots.txt. No lo uses para «esconder» páginas confidenciales; usa contraseñas o autenticación.

No incluir referencia al sitemap: Siempre agrega la línea Sitemap: https://tudominio.pe/sitemap_index.xml para que Google descubra tu sitemap fácilmente.

Sintaxis incorrecta: El robots.txt es sensible a la sintaxis. Un espacio extra, una barra faltante o una mayúscula incorrecta pueden hacer que la directiva no funcione como esperas.

Cómo verificar tu Robots.txt

Herramientas para asegurar que tu robots.txt funciona correctamente:

Google Search Console: La herramienta de prueba de robots.txt de Google te permite verificar si una URL específica está bloqueada o permitida. También muestra errores de sintaxis.

Verificación directa: Visita tudominio.pe/robots.txt en tu navegador para ver el archivo actual.

Screaming Frog: Rastrea tu sitio y muestra qué URLs están bloqueadas por robots.txt, detectando posibles errores de configuración.

Preguntas Frecuentes sobre Robots.txt

¿Mi sitio web necesita un archivo Robots.txt?

Sí, es recomendable para cualquier sitio web profesional. Si no tienes uno, Google rastreará todas las páginas de tu sitio sin restricciones, lo cual puede desperdiciar el «crawl budget» (presupuesto de rastreo) en páginas irrelevantes. Para sitios WordPress en Lima, plugins como Rank Math y Yoast te permiten crear y editar el robots.txt desde el panel de administración en minutos.

¿El Robots.txt puede hacer que mi sitio desaparezca de Google?

Sí, si lo configuras incorrectamente. La directiva Disallow: / bloquea el acceso de Google a TODO tu sitio, haciéndote invisible en los resultados de búsqueda. Este es el error más peligroso del robots.txt. Siempre verifica tu archivo en tudominio.pe/robots.txt y usa la herramienta de prueba de Google Search Console para confirmar que no estás bloqueando páginas importantes.

¿Cuál es la diferencia entre Robots.txt y noindex?

Robots.txt controla si Google puede RASTREAR (visitar) una página. Noindex controla si Google puede INDEXAR (mostrar en resultados) una página. Si quieres que una página no aparezca en Google, usa meta noindex, no robots.txt. Si bloqueas con robots.txt, Google no puede leer el noindex y la URL podría aparecer en resultados de todas formas. Para empresas en Lima, la regla simple es: robots.txt para eficiencia de rastreo, noindex para controlar qué aparece en Google.

¿Puedo usar Robots.txt para bloquear el acceso de ChatGPT o Gemini?

Sí, puedes intentar bloquear bots de IA con robots.txt. Por ejemplo: User-agent: GPTBot seguido de Disallow: / bloquea el bot de OpenAI. Sin embargo, no todos los bots de IA respetan el robots.txt, y bloquearlos significa que tu contenido no será citado por estas plataformas. Para empresas en Lima que quieren ser citadas por ChatGPT y Gemini, NO bloquees estos bots: ser referenciado por IA generativa es una nueva forma valiosa de visibilidad.

¿Cómo sé si algo está mal con mi Robots.txt?

Señales de problemas: caída repentina de tráfico orgánico sin razón aparente (podrías estar bloqueando páginas importantes), Google Search Console muestra errores de rastreo, o cuando buscas site:tudominio.pe en Google y faltan páginas que deberían aparecer. Verifica visitando tudominio.pe/robots.txt directamente y usa la herramienta de prueba en Search Console. Si sospechas un error, consulta con tu agencia web o desarrollador en Lima antes de hacer cambios.

APRENDE MÁS

Servicio de Anuncios en Google Ads en Perú - SEO Posicionamiento Web - SEM - PosicionCero.com

¿Qué es el Modelo de Freemium?

¿En qué consiste el modelo de freemium? El modelo de freemium es una

¿Qué es Elevator pitch?

¿Qué es un Elevator Pitch y para qué sirve? El elevator pitch es

¿Qué es un Display network o red de Display?

Es una red de sitios web y aplicaciones que permiten a los especialistas mostrar anuncios en sus páginas. Google AdWords es una red de visualización que consta de más de 2 millones de sitios web y llega a más del 90 por ciento de los consumidores netos.

¿Qué es el ciclo de ventas?

Es el proceso de venta de una empresa a un consumidor. Refiriéndose a cada actividad asociada con el cierre de una venta. Los pasos utilizados no son específicos. Cada empresa puede tener un conjunto de pasos y actividades que utilice en el ciclo de ventas. Sin embargo, cada paso sirve para cerrar la venta.

¿Qué son las frases de palabras clave o keyword phrases?

Las frases de palabras son un grupo de dos o más palabras que se utilizan para comercializar y encontrar información en los motores de búsqueda. Por ejemplo, un usuario de la red quiere información sobre marketing digital. El usuario escribe en su navegador «marketing digital».

¿Qué es el valor de por vida del cliente o customer lifetime value?

El valor de por vida del cliente es la predicción de un comercializador del beneficio neto atribuido a todo el futuro de una relación con el cliente. Los especialistas utilizan el modelo de predicción, que puede incluir el examen de datos e información hasta el uso de sofisticadas técnicas de análisis predictivo. Por lo tanto, el CLV puede ser complejo, sofisticado y preciso.