Gratis Hosting
+ Dominio .com
+ Correos Corporativos
+ Certificado SSL
+ Primer año de servicios 100% Gratis.
+Promoción valida para clientes de Diseño Web, Tiendas Virtuales y Landing Pages.

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Auditoría GEO técnica con Screaming Frog: configuración

Configuración de Screaming Frog para auditoría GEO técnica con extracción de JSON-LD y XPath

Screaming Frog convierte la auditoría GEO técnica en un trabajo a escala: en un solo rastreo extrae y valida el JSON-LD de todo el sitio, cuenta cuántas páginas tienen encabezados en forma de pregunta, detecta tablas reales y mide el primer párrafo de cada URL, los indicadores estructurales de citabilidad. La configuración toma veinte minutos y se reutiliza para siempre. Aquí está el paso a paso, las extracciones personalizadas del kit y los límites honestos de la herramienta.

¿Qué agrega Screaming Frog a una auditoría GEO?

Escala, evidencia y repetibilidad. Las revisiones manuales de schema y estructura funcionan para diez páginas; un sitio de trescientas necesita un crawler que aplique los mismos criterios a todas y te entregue la lista exacta de cuáles fallan. Screaming Frog hace eso con dos capacidades que el GEO aprovecha directo: la validación nativa de datos estructurados, que marca errores de JSON-LD página por página, y la extracción personalizada con XPath, que te deja medir cualquier patrón estructural que definas, de los H2 con pregunta a la presencia de tablas.

El resultado es la versión auditable de las prácticas que desarrollamos en la guía de GEO para aparecer en ChatGPT, Gemini, Claude y Perplexity: en lugar de creer que el sitio cumple, obtienes el censo de cumplimiento. Es la herramienta con la que ejecutamos la capa técnica de las auditorías del servicio de posicionamiento GEO.

La configuración paso a paso

Paso 1: activa la extracción de datos estructurados

En la configuración del spider, sección de extracción, habilita JSON-LD y las validaciones de datos estructurados disponibles. Con eso, cada URL rastreada reporta qué schemas contiene y qué errores de validación presenta. Resultado verificable: las pestañas de datos estructurados pobladas tras un rastreo de prueba.

Paso 2: decide el modo de renderizado

Si tu sitio inyecta contenido o schema por JavaScript, los constructores a veces lo hacen, cambia el modo de rastreo a renderizado con JavaScript. Es más lento y más fiel a lo que ven los motores modernos. Si tu HTML llega completo del servidor, el modo estándar basta y vuela. Resultado verificable: una URL conocida muestra en el crawler el mismo schema que ves en su código fuente renderizado.

Paso 3: carga las extracciones personalizadas

En extracción personalizada, agrega los XPath del kit de la siguiente sección: preguntas en H2, conteo de tablas, longitud del primer párrafo y los que tu caso pida. Resultado verificable: las columnas personalizadas aparecen con datos en el rastreo de prueba.

Paso 4: rastrea el sitio completo y exporta

Corre el rastreo del dominio, deja fuera lo que no aporta, etiquetas, paginaciones de archivo, y exporta a hoja de cálculo las pestañas de datos estructurados más tus columnas personalizadas. Resultado verificable: el archivo con una fila por URL y todas las métricas GEO.

Paso 5: cruza con tus datos de negocio

En la hoja, cruza el censo estructural contra tráfico o ingresos por URL desde GA4. La prioridad sale sola: páginas valiosas con fallas estructurales primero. Resultado verificable: la lista priorizada de correcciones con su justificación.

Paso 6: guarda la configuración y agenda la recurrencia

Exporta el archivo de configuración para reutilizarlo idéntico, y agenda el rastreo trimestral: los sitios se degradan solos con cada plugin y rediseño. Resultado verificable: el archivo de config guardado y la cita en el calendario. [DATO-KOM: archivo de configuración descargable con el kit completo]

Las extracciones personalizadas del kit

Qué mide XPath de referencia Qué revela
H2 en forma de pregunta count(//h2[starts-with(normalize-space(),’¿’)]) Cuántas secciones responden consultas reales
Tablas reales count(//table) Datos comparativos legibles por máquinas
Longitud del primer párrafo string-length(normalize-space((//p)[1])) Proxy del answer-first: muy corto o vacío es mala señal
Bloques FAQ visibles count(//h2[contains(.,’Preguntas frecuentes’)]) Presencia del formato más recuperable
Listas estructuradas count(//ol) y count(//ul) Procedimientos y enumeraciones bien marcados

Ajusta los XPath a tu maquetación real: si tu tema envuelve el contenido en un contenedor específico, anclar las rutas ahí evita contar elementos del menú o el footer. La prueba con tres URLs conocidas antes del rastreo completo te ahorra exportar basura, y documentar cada XPath con su propósito te ahorra reconstruir el criterio en seis meses.

Tres hallazgos típicos de la primera corrida

La primera auditoría a escala casi siempre destapa los mismos tres patrones. El schema fantasma: páginas que el equipo juraba marcadas y que el censo muestra sin un solo nodo, herencia de migraciones o de plugins desactivados sin que nadie note. La inflación de FAQPage: el marcado presente en decenas de URLs donde no existe ningún bloque visible de preguntas, plantado por una plantilla generosa, exactamente el desajuste que los validadores penalizan. Y el desierto de tablas: sitios enteros de servicios con cero tablas reales, donde toda comparación vive en párrafos o en imágenes.

Los tres comparten una virtud: se corrigen por plantilla, no página por página, así que el censo que los detecta convierte semanas de trabajo aparente en días de trabajo real. Esa compresión del esfuerzo es el argumento definitivo para auditar con crawler antes de planificar cualquier corrección estructural.

¿Cómo leer los resultados a escala?

Tres lecturas ordenan el archivo. El censo de schema: cuántas URLs tienen Article, cuántas FAQPage, cuántas validan sin errores; el porcentaje sano se vuelve tu KPI estructural trimestral. Los huecos por plantilla: cuando todas las URLs de un mismo tipo fallan igual, el problema es de plantilla y se corrige una vez para todas, el mejor retorno de la auditoría. Y los outliers de valor: las diez páginas con más tráfico que suspenden cualquier métrica del kit son tu lista de trabajo inmediata, porque ahí la corrección paga al contado.

Resiste la tentación del informe de doscientas filas: el entregable útil de esta auditoría es una página con el censo, los tres patrones de plantilla detectados y la lista corta priorizada. El archivo completo queda como anexo y como línea base, porque el verdadero poder del método aparece en la segunda corrida: comparar censos trimestrales convierte el estado técnico del sitio en una serie con tendencia, igual que el resto de tu medición GEO.

¿Qué no te dice Screaming Frog sobre GEO?

Sus límites son los de cualquier crawler. Mide estructura, no calidad: una página puede tener tabla, preguntas y schema válido y seguir siendo paja sin datos propios; el censo estructural es condición necesaria, no veredicto. No ve menciones ni citas: tu visibilidad real en asistentes vive en la auditoría de prompts, no en el rastreo. Y no replica a cada motor: valida contra estándares, mientras cada asistente procesa a su manera. Úsalo para lo que es imbatible, el control estructural a escala, y deja la medición de resultados a los instrumentos que miden resultados.

Preguntas frecuentes

¿Necesito la versión de pago de Screaming Frog?

Para sitios de hasta 500 URLs, la versión gratuita rastrea suficiente aunque con funciones limitadas; las extracciones personalizadas y la configuración guardada piden licencia. Si tu sitio supera ese tamaño o vas a auditar con recurrencia, la licencia se paga sola en la primera auditoría seria. Verifica las condiciones vigentes de la herramienta antes de decidir.

¿Sirve esta auditoría si mi web está hecha con Elementor?

Sirve igual y suele revelar más: los constructores generan variaciones de estructura entre páginas que el ojo no nota y el crawler sí. La única precaución es el modo de renderizado del paso 2, porque parte del contenido puede depender de JavaScript, y anclar los XPath al contenedor de contenido real de tu plantilla.

¿Cada cuánto conviene correr el rastreo completo?

Trimestral como rutina, y extraordinario tras cambios de tema, plugin SEO o constructor, que son los eventos que rompen schema y estructura en silencio. El rastreo con la config guardada toma minutos de tu atención; la degradación sin vigilar toma meses de visibilidad.

¿Puedo hacer esto mismo con otro crawler?

La lógica viaja: cualquier crawler serio con extracción personalizada y validación de datos estructurados puede ejecutar el mismo kit, con sintaxis propia. Lo importante no es la marca de la araña sino el método: censo estructural completo, criterios GEO definidos como extracciones, cruce con valor de negocio y recurrencia trimestral.

Tu siguiente paso: instala la herramienta si no la tienes, monta los pasos 1 a 3 con el kit de extracciones y corre tu primer censo esta semana. La hoja resultante convierte tu próxima conversación sobre el estado técnico del sitio en una lectura de datos, con la lista de correcciones ya priorizada.

Picture of Christian Otero
Christian Otero
Founder & CEO @ KOM Agencia Digital | Pionero en Generative Engine Optimization (GEO) y SEO Técnico Internacional | +24 Años escalando operaciones digitales | Ex-Nextel, Entel, Prosegur | Ingeniero de Sistemas con Postgrado en Marketing Digital y Comercio Exterior.
Artículos relacionados
¿Buscas diseñar tu página web?

Escríbenos:

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

¿Preguntas?
¡Te asesoramos gratis!

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Si prefieres llámanos o escríbenos...

Estamos atentos a tu comunicación para poder implementar tus nuevas herramientas digitales.

EMPRESA REGISTRADA Ante SUNAT e INDECOPI PAGO 100% SEGURO A través de KOM Pay TRANSPARENCIA TOTAL Precios 100% Públicos POTENCIADOS CON IA Usamos Inteligencia Artificial