Un benchmark GEO compara tu visibilidad en asistentes de IA contra la de tus competidores con una matriz de tres ejes: marca, prompt y motor. Cada respuesta se puntúa con un scoring simple, de 0 por ausencia a 3 por recomendación explícita, y los totales revelan quién domina cada asistente y en qué tipo de consulta. El método completo toma una tarde por trimestre y convierte la pregunta cómo vamos contra la competencia en una tabla con evidencia.
Tabla de Contenidos
¿Qué responde un benchmark GEO que tu auditoría mensual no?
Tu auditoría mide tu presencia y tu share of model rastrea menciones relativas; el benchmark agrega la dimensión que falta: el detalle competitivo por consulta y por motor, con puntaje de calidad de presencia. No es lo mismo que un competidor aparezca mencionado de pasada a que sea la recomendación explícita con su web citada, y el conteo simple de menciones no distingue esos niveles. El benchmark sí, y al hacerlo te muestra exactamente dónde te ganan y dónde tienes ventaja defendible.
Es la herramienta de diagnóstico estratégico del método que desarrollamos en la guía de GEO para aparecer en ChatGPT, Gemini, Claude y Perplexity, y la primera entrega que armamos cuando un cliente nuevo llega al servicio de posicionamiento GEO: antes de optimizar nada, la foto competitiva completa.
El método de 5 pasos
Paso 1: define el universo
Elige de tres a cinco marcas, la tuya incluida, y de 10 a 15 prompts repartidos en transaccionales, comparativos y locales, escritos como los formularía un cliente real. Congela ambos listados: el benchmark vale por su comparabilidad trimestre a trimestre. Resultado verificable: el documento de universo con marcas y prompts numerados.
Paso 2: corre la matriz completa
Ejecuta cada prompt en los cuatro motores principales, en sesión limpia y con doble corrida para absorber variabilidad. No preguntas por las marcas: preguntas por la categoría y registras quién aparece. Resultado verificable: capturas fechadas de cada respuesta, organizadas por motor.
Paso 3: puntúa cada celda
Aplica el scoring de la siguiente sección a cada combinación marca-prompt-motor, usando el puntaje más alto de las dos corridas. Sé estricto con los criterios: el benchmark inflado se siente bien y sirve para nada. Resultado verificable: la matriz llena, sin celdas vacías.
Paso 4: calcula totales y lee patrones
Suma por marca para el ranking general, por marca y motor para ver fortalezas por asistente, y por marca y tipo de prompt para ver quién gana lo transaccional contra lo informativo. Resultado verificable: tres tablas de resumen con los totales.
Paso 5: traduce los gaps a plan
Cada brecha grande es una tarea con nombre: el motor donde no existes pide estudiar sus fuentes, el tipo de consulta donde pierdes pide contenido o datos específicos, la ventaja que tienes pide defensa con actualización. Resultado verificable: tres acciones priorizadas para el trimestre, cada una ligada a una celda de la matriz.
¿Cómo se puntúa cada respuesta?
| Puntaje | Criterio | Ejemplo |
|---|---|---|
| 0 | Ausente | La marca no aparece en la respuesta |
| 1 | Mención | Nombrada entre otras opciones, sin detalle |
| 2 | Mención con sustancia | Descrita con datos correctos o citada como fuente |
| 3 | Recomendación | Presentada como opción preferente para el caso |
El criterio de la frontera entre 1 y 2 es la sustancia: si el asistente sabe algo concreto y correcto de la marca, sube. La frontera entre 2 y 3 es la preferencia: solo puntúa 3 cuando la respuesta empuja al usuario hacia esa opción. Documenta los casos dudosos con su captura para mantener el criterio estable entre trimestres.
Ejemplo resuelto: un rubro limeño
Números ilustrativos de un benchmark real de un rubro de servicios en Lima, con marcas anonimizadas. Universo: 3 marcas, 12 prompts, 4 motores; puntaje máximo posible por marca: 144.
| Marca | Total | Mejor motor | Peor motor | Lectura |
|---|---|---|---|---|
| Marca A | 78 | Perplexity | Gemini | Líder con base técnica fuerte y citas frecuentes |
| Marca B | 45 | ChatGPT | Perplexity | Vive de notoriedad de marca, débil en fuentes citables |
| Marca C | 12 | Copilot | Resto | Casi invisible: trabajo de base pendiente |
La lectura fina del caso: la Marca B ganaba en consultas con su nombre pero perdía todas las transaccionales de categoría, señal de marca conocida sin contenido citable. La Marca A dominaba Perplexity por su blog con datos, y su gap en Gemini apuntaba a señales de entidad. Cada celda débil se volvió tarea, que es el punto del ejercicio: la matriz no se archiva, se ejecuta.
¿Cómo convertir el benchmark en plan de trabajo?
La regla práctica: una acción por tipo de gap, máximo tres por trimestre. Gap de motor, fuerte en unos asistentes y ausente en otro: investiga qué fuentes usa el ausente en tu categoría y construye presencia en ellas. Gap de tipo de consulta, visible en lo informativo e invisible en lo transaccional: refuerza páginas comerciales con datos citables, precios y comparativas honestas. Gap de calidad, muchas menciones de 1 y pocas de 2 y 3: tu marca suena pero no tiene sustancia citable asociada; toca publicar datos y casos que les den a los modelos algo que decir de ti.
Y el cuarto escenario, la ventaja: donde puntúas 3 sostenido, no te duermas; identifica qué la produce, contenido, datos, fuentes, y mantenlo actualizado, porque las ventajas de visibilidad se erosionan en silencio.
Cómo presentar la matriz sin marear a nadie
La matriz completa tiene cientos de celdas y nadie fuera del equipo técnico debería verla entera. El formato que funciona en una reunión: la tabla de totales por marca como apertura, un solo gráfico de evolución si ya tienes más de un trimestre, y las tres acciones del paso 5 con su celda de origen como cierre. Todo lo demás vive en el anexo para quien pregunte.
El matiz de comunicación que evita malentendidos: presenta los puntajes como medición con metodología propia, no como verdad absoluta del mercado. La frase que usamos: con este universo de prompts y este criterio, así se reparte la visibilidad hoy. Esa honestidad metodológica desarma la objeción clásica de yo probé y me salió distinto, porque la respuesta es exactamente esa: sin protocolo, a cualquiera le sale distinto cada vez.
Errores comunes del benchmark
Los cinco de siempre. Elegir competidores por orgullo y no por realidad: el universo correcto sale de quién aparece de verdad en las respuestas, no de tu mapa mental. Prompts sesgados que mencionan tu marca o tu diferencial, que convierten el ejercicio en confirmación. Scoring laxo con tu marca y estricto con el resto, el autoengaño con tabla. Cambiar universo o criterios entre trimestres, rompiendo la serie. Y presentar la matriz sin plan: el benchmark que no termina en tres tareas es un informe decorativo.
Preguntas frecuentes
¿Cada cuánto conviene repetir el benchmark?
Trimestral es el ritmo correcto: suficiente para que tus acciones muestren efecto y para detectar movimientos de la competencia, sin convertir la medición en tu trabajo principal. La auditoría mensual sigue corriendo en paralelo como pulso; el benchmark es la foto competitiva profunda que se compara trimestre contra trimestre.
¿Cuántos prompts necesita un benchmark confiable?
Entre 10 y 15 bien elegidos bastan para un rubro: con doble corrida en cuatro motores ya son 80 a 120 respuestas por trimestre, suficiente señal para patrones gruesos. Más prompts mejoran la granularidad a costa de horas; crece solo si las decisiones que tomas piden ese detalle extra.
¿Qué hago si un competidor domina todos los motores?
Estudiarlo en serio antes que imitarlo a ciegas: revisa qué publica, qué datos abre, qué fuentes lo citan y cómo está su base técnica. El benchmark te dice dónde es más débil su dominio, el motor o tipo de consulta con menor brecha, y ahí está tu cabeza de playa: ganar primero la celda más ganable y expandir desde la evidencia.
¿Sirve el benchmark para presentar propuestas como agencia?
Es de las piezas más persuasivas que existen: mostrarle a un prospecto su matriz real contra dos competidores convierte el GEO de concepto abstracto en brecha medida con capturas. Úsalo con ética: universo justo, scoring estricto y la aclaración de que es una foto trimestral, no una promesa de resultados.
Tu siguiente paso: arma hoy el documento de universo, tus tres a cinco marcas y tus 12 prompts, y agenda la tarde del benchmark esta quincena. La primera matriz es tu línea base competitiva; desde la segunda, cada trimestre te dice con números si el plan está cerrando brechas o solo dando vueltas.








