Tabla de Contenidos
- 1 Del buscador clásico al motor generativo
- 2 Arquitectura RAG explicada
- 3 Cómo seleccionan fuentes los LLMs
- 4 Por qué citan ciertas webs y no otras
- 5 ChatGPT por dentro: cómo busca y genera
- 6 Perplexity por dentro: búsqueda que siempre cita
- 7 Gemini y AI Overviews: la IA dentro de Google
- 8 Señales que puedes controlar desde hoy
- 9 Preguntas frecuentes
Del buscador clásico al motor generativo
Google funciona así desde 1998: recibes una consulta, buscas en un índice gigante de páginas web, ordenas los resultados por relevancia (usando señales como backlinks, palabras clave y velocidad de carga) y muestras diez enlaces azules. El usuario elige cuál clickear. Simple.
Los motores generativos rompen ese esquema. Cuando le preguntas a ChatGPT «¿qué agencia de marketing digital recomendarías en Lima?», no te da una lista de enlaces. Te da una respuesta. Un párrafo que menciona nombres concretos, explica por qué los recomienda y a veces incluye enlaces a las fuentes que consultó.
La diferencia técnica es profunda. Google busca páginas; los motores generativos buscan información, la procesan a través de un modelo de lenguaje y producen texto nuevo. El resultado no es un ranking de documentos, sino una síntesis que puede combinar datos de múltiples fuentes en una sola respuesta.
Para tu empresa, esto cambia las reglas: ya no compites por estar entre los 10 primeros resultados. Compites por ser la fuente que la IA elige para construir su respuesta. Y los criterios para esa elección son diferentes a los de Google.
Arquitectura RAG explicada
RAG significa Retrieval-Augmented Generation, y es el mecanismo que usan la mayoría de los motores generativos para responder preguntas con información actualizada. Sin RAG, un modelo de lenguaje solo puede responder con lo que aprendió durante su entrenamiento, que siempre tiene una fecha de corte.
El proceso tiene tres fases. Primera: el usuario hace una pregunta. Segunda: el sistema busca documentos relevantes en una base de datos o en la web (la parte de «retrieval»). Tercera: el modelo de lenguaje lee esos documentos y genera una respuesta que integra esa información (la parte de «generation»).
Piénsalo como un analista con acceso a internet. El modelo de lenguaje es el cerebro del analista (sabe redactar, razonar, comparar). El módulo de retrieval es su navegador web. Cuando le haces una pregunta, primero busca información actualizada y luego la procesa con su capacidad de razonamiento para darte una respuesta coherente.
El GEO existe precisamente por esto: si tu contenido está bien posicionado en las bases de datos que consulta el módulo de retrieval, y está bien estructurado para que el modelo de lenguaje lo entienda, tienes más probabilidades de ser citado. No es magia. Es ingeniería de contenido.
Cada motor implementa RAG de forma distinta. ChatGPT usa sus propios crawlers (GPTBot, OAI-SearchBot) para buscar en la web. Perplexity usa el índice de Bing como base. Gemini tiene acceso directo al índice de Google. Estas diferencias importan porque determinan dónde necesitas tener presencia para que cada motor te encuentre.
Cómo funciona RAG paso a paso
| Fase | Qué ocurre | Ejemplo con Perplexity |
|---|---|---|
| 1. Consulta | El usuario escribe una pregunta | «¿Cuánto cuesta una tienda virtual en Perú?» |
| 2. Retrieval | El sistema busca fuentes relevantes | Perplexity consulta el índice de Bing + su propio crawling |
| 3. Selección | Filtra y rankea las fuentes encontradas | Selecciona 5-8 páginas web con datos relevantes |
| 4. Generación | El LLM lee las fuentes y genera una respuesta | Sintetiza precios, opciones y recomendaciones |
| 5. Citación | Vincula cada afirmación con su fuente | Añade enlaces numerados a cada fuente usada |
Cómo seleccionan fuentes los LLMs
Esta es la pregunta del millón para cualquier empresa que quiera aparecer en respuestas de IA. Los modelos de lenguaje no eligen fuentes al azar, pero tampoco usan un algoritmo tan transparente como el de Google.
Lo que sabemos (por papers publicados, ingeniería inversa y experimentación directa) es que la selección depende de varios factores que actúan en combinación.
Relevancia del contenido con la consulta. El factor más obvio pero el más importante. Si alguien pregunta por «mejores agencias SEO en Lima» y tu página habla de agencias SEO en Lima con datos concretos, la relevancia es alta. Si tu página es genérica sobre «marketing digital», la relevancia baja. Los motores generativos valoran la coincidencia semántica, no solo las palabras clave exactas.
Autoridad del dominio. Los motores generativos heredan en parte las señales de autoridad de los buscadores tradicionales. Un sitio con buen posicionamiento en Google o Bing tiene más probabilidades de ser seleccionado como fuente. Esto no significa que necesites un DR de 80, pero sí que tu sitio debe tener un historial de contenido de calidad y cierta presencia en el ecosistema web.
Estructura y citabilidad del contenido. Los modelos de lenguaje procesan texto. Si tu contenido tiene párrafos claros, datos numéricos, definiciones directas y una estructura que permite extraer fragmentos coherentes, es más «fácil de citar» para el modelo. Un muro de texto sin estructura es difícil de procesar incluso para una IA.
Frescura de la información. Perplexity tiene una preferencia marcada por contenido reciente. ChatGPT con búsqueda web también prioriza resultados actualizados. Un artículo con «datos 2026» tiene ventaja sobre uno con «datos 2023», especialmente para consultas sobre precios, normativas o tendencias.
Consistencia con otras fuentes. Los modelos de lenguaje tienden a validar información cruzándola entre múltiples fuentes. Si tu sitio afirma algo que otras fuentes confiables respaldan, esa información tiene más probabilidad de ser incluida en la respuesta. Las afirmaciones aisladas o contradictorias se tratan con más cautela.
Por qué citan ciertas webs y no otras
Hemos analizado cientos de respuestas de ChatGPT, Perplexity y Gemini para consultas del mercado peruano, y los patrones son bastante claros.
Las webs citadas tienen datos concretos. «El IGV en Perú es del 18 %» se cita. «Los impuestos en Perú son significativos» no. Los motores generativos buscan contenido que puedan usar literalmente en sus respuestas, y los datos numéricos son lo más fácil de insertar en una oración generada.
Las webs citadas responden directamente. Si el título del artículo es una pregunta y el primer párrafo la responde, el motor generativo tiene un fragmento perfecto para citar. Los artículos que dan vueltas antes de llegar al punto rara vez son seleccionados.
Las webs citadas tienen presencia externa. Un sitio mencionado en directorios, medios y otras webs genera más confianza que uno aislado. ChatGPT valora especialmente la consistencia de información sobre una marca a través de múltiples fuentes.
Las webs NO citadas suelen tener estos problemas: robots.txt que bloquea los crawlers de IA, contenido duplicado o genérico, información desactualizada, falta de datos estructurados (Schema markup), o simplemente no están indexadas en Bing (lo que las excluye de Perplexity).
Comparativa de motores generativos: señales que priorizan
| Señal | ChatGPT | Perplexity | Gemini/AI Overviews |
|---|---|---|---|
| Autoridad de dominio | Alta | Media-Alta (vía Bing) | Muy alta (usa índice de Google) |
| Frescura del contenido | Media | Muy alta | Alta |
| Schema markup | Media | Media | Alta |
| Datos numéricos verificables | Alta | Alta | Alta |
| Accesibilidad a crawlers | GPTBot, OAI-SearchBot | PerplexityBot + Bingbot | Googlebot, Google-Extended |
| Cita con enlace directo | A veces | Siempre | Sí (en AI Overviews) |
| Preferencia por idioma español | Sí (para consultas en español) | Sí | Sí |
ChatGPT por dentro: cómo busca y genera
ChatGPT de OpenAI es el motor generativo con mayor cuota de uso a nivel global. Su funcionamiento combina dos modos: el modelo base (que responde con conocimiento de entrenamiento) y la búsqueda web (que consulta internet en tiempo real).
Cuando un usuario hace una pregunta con búsqueda web activa (habilitada por defecto desde 2025), ChatGPT envía crawlers que navegan la web buscando información relevante. Estos crawlers se identifican como GPTBot (rastreo general) y OAI-SearchBot (búsqueda en tiempo real). Si tu robots.txt los bloquea, ChatGPT no puede acceder a tu contenido actualizado.
El modelo selecciona fuentes evaluando la relevancia semántica del contenido con la consulta, la autoridad percibida del dominio, la calidad y estructura del texto, y la consistencia con información de otras fuentes. No existe un sistema de pujas ni de pago. La selección es algorítmica, basada en la calidad y relevancia del contenido.
Un detalle técnico que muchos desconocen: ChatGPT puede «recordar» marcas mencionadas frecuentemente en sus datos de entrenamiento. Si tu empresa tiene amplia presencia web anterior a la fecha de corte del entrenamiento, el modelo ya la «conoce» incluso sin búsqueda web. Pero esta información puede ser inexacta o estar desactualizada, por lo que complementar con presencia accesible para los crawlers es necesario.
Perplexity por dentro: búsqueda que siempre cita
Perplexity se diseñó desde el inicio como motor de búsqueda, no como chatbot. Esa diferencia de origen se nota en cómo opera.
Su arquitectura usa el índice de Bing como base de datos principal, complementado con un sistema propio de crawling (PerplexityBot). Cuando recibes una consulta, Perplexity busca en este índice, selecciona las fuentes más relevantes (típicamente 5-8 por respuesta), y genera una síntesis con citas numeradas que enlazan a cada fuente.
Hay dos implicaciones prácticas. Primera: si no estás indexado en Bing, Perplexity probablemente no te encuentre. Muchas empresas peruanas optimizan solo para Google y olvidan Bing. Registrar tu sitio en Bing Webmaster Tools y enviar tu sitemap es un paso básico que muchos omiten. Segunda: cada citación de Perplexity incluye un enlace clickeable, lo que genera tráfico medible. Es el motor generativo que más directamente puede enviar visitas a tu web.
Perplexity tiene una marcada preferencia por contenido reciente, tablas comparativas y datos verificables. También valora que tus artículos citen sus propias fuentes, un patrón que los investigadores llaman «citabilidad recursiva».
Gemini y AI Overviews: la IA dentro de Google
Gemini es la apuesta de Google por la búsqueda generativa, y para el mercado peruano es probablemente el más importante de los tres porque opera dentro del ecosistema que el 95 % de los peruanos ya usa.
AI Overviews (antes llamado SGE, Search Generative Experience) es el resumen generado por IA que aparece en la parte superior de los resultados de Google para ciertas consultas. No reemplaza los resultados orgánicos; los complementa con una síntesis que incluye enlaces a las fuentes citadas.
La ventaja de Gemini/AI Overviews para empresas que ya tienen buen SEO es que usa el mismo índice de Google. Si ya rankeas bien para una keyword, tienes más probabilidad de ser citado por AI Overviews para esa misma consulta. Pero hay un matiz: AI Overviews aplica filtros adicionales. Prefiere contenido con respuestas directas, datos estructurados (Schema markup) y autoridad temática demostrada.
Un dato que pocas empresas peruanas conocen: Google Search Console ya muestra métricas de AI Overviews. Puedes ver cuántas impresiones y clics genera tu contenido desde estos resúmenes de IA, sin costo adicional. Si tienes Search Console configurado, ya tienes acceso a estos datos.
Señales que puedes controlar desde hoy
De todos los factores que influyen en la selección de fuentes, estos son los que puedes trabajar directamente:
Acceso técnico. Verifica que tu robots.txt permita GPTBot, PerplexityBot, ClaudeBot y Google-Extended. Esto se hace en 15 minutos y es prerrequisito para todo lo demás.
Indexación en Bing. Registra tu sitio en Bing Webmaster Tools y envía tu sitemap. Perplexity depende de Bing para encontrarte.
Estructura de contenido. Responde la pregunta del título en el primer párrafo. Usa encabezados descriptivos. Incluye tablas cuando sea apropiado. Cada párrafo debe funcionar como unidad independiente.
Datos verificables. Incluye números, fechas, precios en soles, referencias a normativas peruanas. Los datos concretos son lo que los motores generativos buscan para construir respuestas precisas.
Schema markup. Implementa al menos Article, FAQPage y Organization schema. Con Rank Math en WordPress, esto se configura sin escribir código.
Actualización regular. Revisa tus artículos principales cada trimestre. Actualiza datos, precios y referencias normativas. Un artículo con «precios 2026» tiene ventaja directa sobre uno con «precios 2024».
Si quieres profundizar en la implementación técnica y estratégica, en KOM trabajamos estos aspectos como parte de nuestro servicio de posicionamiento GEO.
Preguntas frecuentes
¿Cómo decide ChatGPT qué webs citar?
ChatGPT evalúa la relevancia del contenido con la consulta, la autoridad del dominio, la estructura del texto y la consistencia con otras fuentes. Cuando tiene activada la búsqueda web, envía crawlers (GPTBot y OAI-SearchBot) que navegan internet en tiempo real. Las webs con contenido bien estructurado, datos verificables y accesibles para estos crawlers tienen mayor probabilidad de citación. No hay sistema de pago: la selección es puramente algorítmica.
¿Perplexity indexa toda la web?
No directamente. Perplexity usa el índice de Bing como base principal, complementado con su propio sistema de crawling (PerplexityBot). Esto significa que si tu web no está indexada en Bing, Perplexity probablemente no la encuentre. Para asegurarte de estar indexado, registra tu sitio en Bing Webmaster Tools y envía tu sitemap XML.
¿AI Overviews es lo mismo que SGE?
AI Overviews es la evolución de lo que Google llamó SGE (Search Generative Experience) durante su fase experimental. Funcionalmente son lo mismo: un resumen generado por IA que aparece en la parte superior de los resultados de Google. Google cambió el nombre cuando pasó de fase experimental a producto general. Las métricas de AI Overviews ya aparecen en Google Search Console.
¿Gemini usa el mismo índice que Google?
Sí. Gemini y AI Overviews tienen acceso al índice de búsqueda de Google, el mismo que alimenta los resultados orgánicos tradicionales. Esta es una ventaja para empresas que ya tienen buen SEO: si rankeas bien en Google, tienes mayor probabilidad de ser citado por Gemini/AI Overviews. Sin embargo, Gemini aplica filtros adicionales que priorizan contenido con datos estructurados y respuestas directas.
¿Puedo optar por no aparecer en estos motores?
Sí. Puedes bloquear crawlers específicos en tu robots.txt. Por ejemplo, «User-agent: GPTBot / Disallow: /» impide que ChatGPT acceda a tu contenido. Sin embargo, bloquear estos crawlers te hace invisible para los motores generativos, que es exactamente lo contrario de lo que la mayoría de empresas necesita en 2026. La recomendación es permitir el acceso a todos los crawlers de IA salvo que tengas una razón específica para no hacerlo.








