RAG (Retrieval Augmented Generation) es una técnica que combina un modelo de lenguaje como Claude o GPT con una base de datos propia de la empresa. En lugar de pagar miles de dólares por reentrenar un modelo con tus documentos, le das al modelo la capacidad de buscar dentro de tus propios archivos cada vez que recibe una pregunta, y generar la respuesta a partir de esa información recuperada. El concepto fue formalizado por Patrick Lewis y su equipo en Facebook AI Research en mayo de 2020.
Para una PYME peruana, RAG tiene una ventaja que rara vez se menciona en los artículos traducidos del inglés: permite usar IA con datos de clientes sin enviar toda la base a entrenar un modelo externo, lo que encaja mucho mejor con las exigencias de la Ley 29733 de Protección de Datos Personales y con el nuevo reglamento aprobado por el DS 016-2024-JUS. En este artículo explico cómo funciona, cuánto cuesta realmente operarlo desde Perú con IGV incluido, y por qué creo que es la única forma razonable para que una empresa mediana empiece a usar IA sobre su propia información.
Tabla de Contenidos
- 1 ¿Qué es RAG y por qué importa en Perú?
- 2 Cómo funciona RAG paso a paso
- 3 RAG vs fine-tuning vs prompt engineering
- 4 Frameworks y servicios para implementar RAG
- 5 Cuánto cuesta operar RAG desde Perú (con IGV)
- 6 RAG y la Ley 29733: el punto que casi nadie explica
- 7 RAG bajo la nueva Ley 31814 de Inteligencia Artificial
- 8 Caso peruano: qué está haciendo el BCP con IA
- 9 Cuándo NO usar RAG
- 10 Preguntas frecuentes
- 10.1 ¿Qué significa RAG en español?
- 10.2 ¿RAG reemplaza al fine-tuning?
- 10.3 ¿Cuánto cuesta implementar RAG en Perú para una PYME?
- 10.4 ¿Es legal usar RAG con datos de mis clientes en Perú?
- 10.5 ¿Qué LLM funciona mejor con RAG?
- 10.6 ¿Necesito un equipo de data science para implementar RAG?
- 10.7 ¿RAG funciona con documentos en español?
- 11 Qué hacer con todo esto
- 12 Fuentes citadas
¿Qué es RAG y por qué importa en Perú?
RAG son las siglas de Retrieval Augmented Generation, que en español se traduce como Generación Aumentada por Recuperación. Es una arquitectura de inteligencia artificial que conecta un modelo de lenguaje grande (LLM) con una base de conocimiento externa, de forma que el modelo consulta esa base antes de responder.
La definición técnica viene del paper original publicado en mayo de 2020 por Patrick Lewis, Ethan Perez, Aleksandra Piktus y nueve coautores más, trabajando entre Facebook AI Research, University College London y New York University. El paper se titula «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks» y fue presentado en NeurIPS 2020. La referencia exacta es arXiv:2005.11401 y está disponible en arxiv.org.
El problema que los autores querían resolver es concreto. Los modelos de lenguaje entrenados con billones de parámetros guardan conocimiento dentro de sus pesos, pero ese conocimiento es estático: quedó fijado el día que terminó el entrenamiento. Si le preguntas a un modelo sobre algo posterior a esa fecha, o sobre algo específico de tu empresa, no tiene manera de saberlo. Peor: muchas veces inventa la respuesta con total aplomo. Lewis y su equipo propusieron un truco elegante. En lugar de pedirle al modelo que responda desde su memoria, le damos primero el contexto relevante recuperado de una base externa, y después le pedimos que genere la respuesta condicionada a ese contexto.
En mi experiencia trabajando con clientes en Lima durante los últimos dos años, este es el momento donde se prende el foco. Una PYME peruana casi nunca necesita un modelo que sepa de todo: necesita un modelo que conozca sus propios productos, sus propias tarifas, su propio historial de clientes. RAG es la forma más barata y controlable de conseguir eso sin que los datos salgan de su propio ecosistema.
Cómo funciona RAG paso a paso
Un sistema RAG tiene dos fases. La primera es la ingesta, que se hace una sola vez por cada documento nuevo. La segunda es la consulta, que ocurre cada vez que un usuario hace una pregunta.
Fase 1: ingesta de documentos
El sistema toma los documentos de la empresa (PDFs, Word, páginas web, tickets de soporte, contratos, lo que sea) y los parte en fragmentos más pequeños llamados chunks. Un chunk típico tiene entre 200 y 1000 palabras. Cada chunk pasa por un modelo de embeddings, que lo convierte en un vector numérico de varios cientos de dimensiones. Ese vector representa el significado del texto en un espacio matemático donde los textos parecidos quedan cerca.
Los vectores se guardan en una base de datos vectorial, que es una pieza de infraestructura especializada en buscar vectores similares a gran velocidad. Pinecone, Weaviate, Qdrant y ChromaDB son las opciones más usadas hoy.
Fase 2: consulta del usuario
Cuando alguien pregunta algo, el sistema convierte la pregunta a un vector usando el mismo modelo de embeddings. Ese vector se compara contra los vectores guardados en la base, y se recuperan los tres, cinco o diez chunks más similares. Luego se construye un prompt que le dice al modelo de lenguaje: «Aquí tienes estos fragmentos del conocimiento de la empresa. Responde la pregunta del usuario usando solo esta información.» El modelo genera la respuesta, idealmente citando los fragmentos de origen.
Hay variantes más sofisticadas. El RAG ingenuo (naive) solo hace una búsqueda. El RAG avanzado aplica reranking para filtrar resultados irrelevantes, reescribe la pregunta para que sea más buscable y combina búsqueda vectorial con búsqueda por palabra clave. El RAG agéntico va más lejos: el modelo decide solo si necesita buscar más información, en qué fuente, y cuántas veces. Para una PYME peruana que recién empieza, el RAG avanzado sin agentes ya resuelve el 90% de los casos de uso reales.
RAG vs fine-tuning vs prompt engineering
Es la pregunta que todos hacen primero. Las tres son formas de adaptar un modelo de lenguaje a un caso de uso concreto, y cada una tiene su momento. La confusión es entendible porque los artículos en español suelen mezclarlas.
Prompt engineering
Consiste en escribir mejores instrucciones al modelo. Es gratis (no hay costo extra más allá del uso del modelo), instantáneo y no requiere infraestructura. Funciona perfecto si el conocimiento que necesitas ya está en el modelo base y solo hace falta guiarlo. El límite es obvio: no sirve cuando el modelo simplemente no conoce tu información.
Fine-tuning
Consiste en reentrenar el modelo con ejemplos específicos de tu dominio. Funciona muy bien para enseñarle al modelo un estilo, un formato, o un tipo de razonamiento repetitivo. Pero tiene tres problemas serios para PYMES. Primero, cuesta: OpenAI cobra por tokens de entrenamiento y por hosting del modelo afinado, y el costo escala rápido. Segundo, los datos de entrenamiento salen de tu infraestructura. Tercero, y esto es lo más subestimado: cada vez que actualizas tu información, tienes que reentrenar. Si tu catálogo cambia cada semana, fine-tuning no es para ti.
RAG
Conecta el modelo con tu base de datos sin modificar el modelo. Los datos viajan al modelo solo en el momento de la consulta, como contexto, y no se quedan en los pesos. Si actualizas un documento en tu base de conocimiento, la próxima consulta ya lo refleja sin reentrenamiento. El control sobre qué se envía y cuándo es mucho mayor que en fine-tuning, lo cual importa mucho para el cumplimiento normativo peruano (lo veremos más adelante).
Tabla comparativa rápida
| Criterio | Prompt eng. | Fine-tuning | RAG |
|---|---|---|---|
| Costo inicial | Cero | Alto (USD 100-5000+) | Medio (USD 50-500) |
| Actualización | Instantánea | Reentrenamiento completo | Instantánea al indexar |
| Control de datos | Total | Bajo (datos en el modelo) | Total (tú eliges qué enviar) |
| Alucinaciones | Altas | Medias | Bajas (con fuentes) |
| Latencia por consulta | Más baja | Baja | Media (búsqueda + LLM) |
Mi recomendación honesta: empieza siempre por prompt engineering. Si con eso no alcanza, ve a RAG. Solo considera fine-tuning si ya agotaste las dos primeras y tienes un caso muy específico de estilo o formato que RAG no puede darte.
Frameworks y servicios para implementar RAG
Hay dos caminos para montar un RAG: usar un framework open-source y ensamblarlo tú, o pagar por un servicio gestionado que lo haga casi todo. Los dos son válidos.
Frameworks open-source
LangChain es el framework más popular para construir aplicaciones con LLMs. Tiene integraciones con casi todos los modelos, bases vectoriales y fuentes de datos imaginables. La versión core es open-source y gratis. La empresa ofrece además LangSmith para observabilidad y LangGraph Cloud para despliegue, ambos con planes pagos. Ver langchain.com
LlamaIndex nació específicamente enfocado en conectar LLMs con datos propios. Para RAG puro es más directo que LangChain. Su versión gestionada es LlamaCloud. Documentación en llamaindex.ai
Haystack de la empresa alemana deepset es la opción más madura para casos empresariales. Tiene una versión gestionada llamada deepset Cloud.
Servicios cloud gestionados
Si no quieres ensamblar piezas, los tres grandes de la nube ofrecen RAG como servicio: Amazon Bedrock Knowledge Bases, Azure AI Search con integración a Azure OpenAI, y Google Vertex AI Search. Los tres cobran una combinación de almacenamiento vectorial, consultas y uso del modelo de lenguaje. Los precios cambian con frecuencia, así que siempre conviene revisar las páginas oficiales (aws.amazon.com/bedrock, azure.microsoft.com y cloud.google.com/vertex-ai) antes de decidir.
No voy a citar precios específicos de estos servicios gestionados porque cambian casi cada trimestre y cualquier cifra aquí quedaría desactualizada. Lo que sí puedo dar con precisión son los precios de las piezas individuales que uno usa para armar un RAG en casa, que es el escenario real de una PYME peruana.
Cuánto cuesta operar RAG desde Perú (con IGV)
Aquí viene la parte que casi nadie calcula bien. Vamos a estimar el costo mensual real de un RAG modesto para una PYME peruana: 100 documentos de 10 páginas cada uno indexados, 1000 consultas al mes de usuarios. Uso la tasa de cambio referencial S/3.45 por dólar para conversiones. Los precios al 8 de abril de 2026 vienen de las páginas oficiales de cada proveedor.
Componentes del costo
Modelo de lenguaje: Claude Haiku 4.5. Anthropic cobra USD 1 por millón de tokens de entrada y USD 5 por millón de tokens de salida. Para 1000 consultas al mes, asumiendo 2000 tokens de contexto enviados y 500 tokens de respuesta por consulta, el costo mensual aproximado es USD 4.50.
Embeddings: OpenAI text-embedding-3-small. Usado en la ingesta y en cada consulta. Para 100 documentos de 10 páginas (alrededor de 400 mil tokens totales) más 1000 consultas al mes, el costo es prácticamente marginal: menos de USD 0.10 mensuales.
Base de datos vectorial: Pinecone. El plan Starter es gratuito e incluye 2GB de almacenamiento, 2 millones de unidades de escritura y 1 millón de unidades de lectura al mes, suficiente para este escenario. Si la PYME crece y necesita producción seria, el plan Standard tiene un mínimo mensual de USD 50. Alternativas: Qdrant Cloud tiene también un free tier, y ChromaDB es completamente autohospedable sin costo de licencia.
Hosting del backend: Railway, Render o DigitalOcean ofrecen planes básicos alrededor de USD 5-10 mensuales para una aplicación pequeña en Python o Node.
Tabla de costo mensual total
| Componente | USD/mes | Soles (S/3.45) | Con IGV 18% |
|---|---|---|---|
| Claude Haiku 4.5 (LLM) | USD 4.50 | S/ 15.53 | S/ 18.32 |
| OpenAI embeddings | USD 0.10 | S/ 0.35 | S/ 0.41 |
| Pinecone Starter (gratis) | USD 0 | S/ 0 | S/ 0 |
| Hosting backend | USD 7 | S/ 24.15 | S/ 28.50 |
| TOTAL mensual estimado | USD 11.60 | S/ 40.03 | S/ 47.23 |
Menos de cincuenta soles al mes para operar un asistente que responde preguntas sobre la base de conocimiento de la empresa. Ese es el piso. El techo depende del volumen: si pasas de mil a cien mil consultas mensuales, el costo del LLM se multiplica por cien y el de Pinecone también escala.
Nota sobre el IGV y el D. Leg. 1623
Hay una confusión frecuente aquí que conviene aclarar. El Decreto Legislativo 1623, publicado el 4 de agosto de 2024 y vigente desde el 25 de agosto, creó un mecanismo de recaudación de IGV para servicios digitales prestados por sujetos no domiciliados. La retención del 18% la realizan directamente los proveedores extranjeros inscritos en el RUC como agentes de retención, o en su defecto los facilitadores de pago (bancos). Pero este régimen está pensado para personas naturales que no realizan actividad empresarial (el consumidor final que usa Netflix, Spotify, Apple TV).
Para una PYME peruana con RUC que contrata estos mismos servicios (Anthropic, OpenAI, AWS, Pinecone), la obligación tributaria siempre existió bajo el régimen de utilización de servicios en el país: la empresa debe pagar el IGV del 18% directamente a SUNAT y, si cumple los requisitos, puede usarlo como crédito fiscal. Esto no lo creó el D. Leg. 1623, ya existía en la Ley del IGV. La tabla de arriba asume que la PYME incorpora ese 18% al costo del servicio, que es la forma más realista de calcularlo. Información oficial en orientacion.sunat.gob.pe/igv-servicios-digitales
RAG y la Ley 29733: el punto que casi nadie explica
Esta es la parte donde se separan los artículos serios de los copiados de Medium. La Ley 29733, Ley de Protección de Datos Personales del Perú, fue promulgada el 21 de junio de 2011 y publicada en El Peruano el 3 de julio de 2011. Su nuevo reglamento se aprobó mediante Decreto Supremo 016-2024-JUS, publicado el 30 de noviembre de 2024 y vigente desde el 29 de marzo de 2025, con plazos de adecuación escalonados según el tamaño de la empresa (dos años para medianas, tres para pequeñas, cuatro para microempresas).
Tres artículos de la ley importan directamente cuando hablamos de RAG:
Artículo 5, principio de consentimiento. «Para el tratamiento de los datos personales debe mediar el consentimiento de su titular.» El reglamento especifica que el consentimiento debe ser libre, previo, expreso, informado e inequívoco. Si vas a meter datos de tus clientes en un sistema RAG, necesitas su consentimiento para ese tratamiento específico, y debes haberles informado la finalidad.
Artículo 11, principio de nivel de protección adecuado. «Para el flujo transfronterizo de datos personales, se debe garantizar un nivel suficiente de protección para los datos personales que se vayan a tratar.» Esto es crítico: cuando usas OpenAI, Anthropic, Pinecone o cualquier servicio cloud extranjero, los datos viajan fuera del Perú. El nuevo reglamento DS 016-2024-JUS exige que el país de destino tenga un nivel adecuado de protección evaluado por la Autoridad Nacional de Protección de Datos Personales (ANPD), o que uses medidas alternativas como cláusulas contractuales tipo.
Artículo 23, derecho al tratamiento objetivo. «El titular de datos personales tiene derecho a no verse sometido a una decisión con efectos jurídicos sobre él o que le afecte de manera significativa, sustentada únicamente en un tratamiento de datos personales destinado a evaluar determinados aspectos de su personalidad o conducta.» Si usas RAG para decidir automáticamente quién recibe un crédito, una contratación o una tarifa preferencial, el titular tiene derecho a que haya un humano en el bucle.
Por qué RAG es más amigable con la Ley 29733 que fine-tuning
Esta es mi opinión técnica, no un consejo legal (no soy abogado). Con fine-tuning, los datos de tus clientes se quedan incrustados en los pesos de un modelo alojado por un tercero. Es casi imposible ejercer el derecho de supresión que la ley reconoce: si un cliente pide que borres sus datos, tendrías que reentrenar el modelo desde cero. Con RAG, los datos viven en tu base vectorial, que tú controlas. Si un cliente pide supresión, borras el registro y punto. La próxima consulta ya no lo encuentra.
Además, RAG te permite filtrar por permisos y por sensibilidad antes de enviar el contexto al LLM. Puedes decidir que ciertos campos (DNI, dirección, datos de salud) nunca se incluyan en el contexto, o que se anonimicen antes de enviarse. Fine-tuning no te da ese control granular.
RAG bajo la nueva Ley 31814 de Inteligencia Artificial
Perú ya tiene ley de IA. La Ley 31814, «Ley que promueve el uso de la inteligencia artificial en favor del desarrollo económico y social del país», fue complementada por su reglamento aprobado mediante Decreto Supremo 115-2025-PCM, publicado en El Peruano el 9 de septiembre de 2025 y con vigencia general desde el 22 de enero de 2026. Esto convierte al Perú en el primer país de América Latina con un reglamento general de IA.
El reglamento clasifica los usos de IA en tres categorías: uso indebido (prohibido), uso de riesgo alto y uso de riesgo aceptable. Para una PYME que implementa RAG para atención al cliente, consulta de catálogo o búsqueda en documentación interna, lo más probable es que caigas en riesgo aceptable, lo que significa que solo debes cumplir las obligaciones generales del reglamento: no discriminación, transparencia algorítmica, respeto a la privacidad de datos personales, y supervisión humana.
Ojo con dos excepciones importantes. Primero, usar IA en procesos de selección, evaluación, contratación o cese de trabajadores es considerado riesgo alto, incluso cuando lo haces solo para asistir al reclutador. Si tu RAG va a soportar decisiones laborales, requiere controles adicionales. Segundo, inferir emociones de personas en el entorno de trabajo también es riesgo alto. Si tu chatbot RAG analiza el «sentimiento» del empleado durante interacciones internas, entras a territorio regulado.
La implementación de las obligaciones específicas del reglamento para el sector privado es gradual por sector: hasta el 10 de septiembre de 2026 para salud, educación, justicia, seguridad, economía y finanzas; hasta el 10 de septiembre de 2027 para transporte, comercio y trabajo; y fechas posteriores para los demás sectores. Para quienes estamos en marketing digital y tecnología, el plazo real llega hasta 2029, pero no conviene esperar.
Caso peruano: qué está haciendo el BCP con IA
Cuando un cliente me pregunta si alguna empresa peruana grande ya está usando esto en serio, la respuesta corta es sí: el Banco de Crédito del Perú lleva años apostando por asistentes virtuales con IA, y desde marzo de 2024 tiene en producción un voicebot llamado Clara que atiende al 30% de las llamadas del 311-9898.
Según declaraciones públicas de Rocío Pérez-Egaña, gerente de área del Centro de Contacto del BCP, Clara se apoya en tecnología cognitiva desarrollada sobre IBM Watson y procesamiento de lenguaje natural para interpretar consultas en voz, resolver operaciones como reseteo de clave, consulta de movimientos o fraccionamiento de compras, y derivar a un asesor humano cuando el caso lo requiere. El banco reportó que desde la implementación, el tiempo promedio desde que el cliente llama hasta encontrar solución se redujo en 50%.
Antes de Clara, el BCP fue el primer banco del sistema financiero peruano en lanzar un chatbot: Arturito BCP, presentado en marzo de 2017 sobre Facebook Messenger y construido también con IBM Watson. No es RAG en el sentido estricto del paper de Lewis et al., pero la arquitectura conceptual es la misma: un modelo de procesamiento de lenguaje conectado a una base de conocimiento sobre productos y operaciones del banco, que recupera información relevante antes de generar una respuesta.
Lo que me interesa de este caso para una PYME es lo siguiente: si el banco más grande del Perú escogió invertir en asistentes conectados a su propia base de conocimiento en lugar de pagar fine-tunings masivos, hay una razón práctica. Los datos bancarios son demasiado sensibles para dejarlos en los pesos de un modelo externo, y cambian demasiado rápido para reentrenar cada vez. RAG es la solución natural.
Cuándo NO usar RAG
Todo el artículo habla bien de RAG, pero no quiero dejar la impresión de que sirve para todo. Hay casos donde es una mala elección.
Si necesitas que el modelo aprenda un estilo muy específico de escritura, o un formato de respuesta rígido, o un razonamiento estructurado propio de tu dominio, fine-tuning o un buen prompt largo funcionan mejor. RAG no le enseña al modelo a escribir diferente: le da información nueva, y el modelo la usa con su estilo habitual.
Si tus datos caben en el contexto del modelo (Claude Sonnet 4.6 permite hasta 1 millón de tokens, unas 750 mil palabras), quizá no necesites RAG en absoluto. Puedes enviar toda tu base cada vez y dejar que el modelo la procese. Es más caro por consulta pero más simple de mantener, y para bases chicas sale rentable.
Si tu caso de uso es crítico en latencia (menos de 200 milisegundos de respuesta) y no puedes tolerar el ida y vuelta de embeddings más búsqueda más generación, RAG va a ser demasiado lento. Para esos casos, o cacheas respuestas precomputadas o usas un modelo más pequeño sin capa de retrieval.
Y si tu información cambia varias veces al día, RAG funciona pero debes invertir en un pipeline de ingesta automática. No es magia: alguien (o algo) tiene que reindexar los documentos nuevos para que el sistema los vea.
Preguntas frecuentes
¿Qué significa RAG en español?
Retrieval Augmented Generation se traduce como Generación Aumentada por Recuperación. El nombre describe exactamente lo que hace: un modelo de lenguaje que genera texto a partir de información que recupera previamente de una base de conocimiento externa.
¿RAG reemplaza al fine-tuning?
No, son complementarios. RAG aporta información nueva y actualizable sin modificar el modelo. Fine-tuning modifica el comportamiento, estilo o formato de respuesta del modelo. Muchos sistemas serios combinan ambas: un modelo afinado para seguir un estilo específico, conectado a RAG para acceder a datos frescos.
¿Cuánto cuesta implementar RAG en Perú para una PYME?
Para un escenario básico de 100 documentos indexados y 1000 consultas al mes con Claude Haiku 4.5, Pinecone Starter (gratuito) y un hosting básico, el costo mensual ronda los S/ 47 con IGV incluido al tipo de cambio referencial S/3.45. El desarrollo inicial, si lo haces con un equipo externo, puede ir desde USD 2,000 hasta USD 15,000 dependiendo de la complejidad y las integraciones requeridas.
¿Es legal usar RAG con datos de mis clientes en Perú?
Sí, siempre que cumplas la Ley 29733 y su nuevo reglamento DS 016-2024-JUS: obtén consentimiento informado del titular, informa la finalidad del tratamiento, implementa medidas de seguridad adecuadas, y respeta los derechos ARCO (acceso, rectificación, cancelación, oposición). Si usas servicios cloud extranjeros, documenta cómo se cumple el principio de nivel adecuado de protección del Artículo 11. No soy abogado: para casos con datos sensibles, consulta con un estudio especializado.
¿Qué LLM funciona mejor con RAG?
No hay un ganador absoluto. En mi experiencia, Claude Haiku 4.5 y GPT-4o-mini son excelentes para RAG de producción por su balance entre precio y calidad. Claude Sonnet 4.6 y GPT-4o valen la pena cuando las respuestas requieren razonamiento complejo sobre el contexto recuperado. Para español peruano específicamente, los modelos de Anthropic y OpenAI dan resultados muy similares; las diferencias reales vienen de cómo diseñes el prompt y el proceso de búsqueda.
¿Necesito un equipo de data science para implementar RAG?
No. Con frameworks como LangChain o LlamaIndex, un desarrollador backend con experiencia en Python o JavaScript puede montar un RAG funcional en una o dos semanas. Lo que sí necesitas es alguien que entienda tus datos y tu caso de uso, porque las decisiones importantes (qué chunkear, cómo indexar, qué filtros aplicar) no son técnicas sino de negocio.
¿RAG funciona con documentos en español?
Sí, perfectamente. Los modelos de embeddings actuales como text-embedding-3-small de OpenAI y los embeddings de Cohere están entrenados con corpus multilingües y funcionan bien con español, incluyendo variantes regionales como el español peruano. Los LLMs grandes (Claude, GPT-4) responden en español con calidad comparable al inglés. El único punto a cuidar es que los chunks mantengan contexto suficiente: en español las oraciones tienden a ser más largas que en inglés, así que conviene usar chunks un poco más grandes.
Qué hacer con todo esto
Si llegaste hasta acá, ya tienes más claridad técnica sobre RAG que el 95% de los artículos traducidos que circulan en español. La pregunta práctica es: ¿vale la pena para tu empresa?
Mi respuesta honesta tras implementar varios de estos sistemas en el mercado peruano es que sí, pero solo si tienes un caso de uso concreto y documentación que justifique la inversión. Un bufete con contratos históricos, una consultora con metodologías internas, un ecommerce con catálogo cambiante, un colegio con normativa interna, una clínica con protocolos: esos son los casos donde RAG da valor inmediato. Si lo que buscas es un chatbot genérico que responda cualquier cosa, te sobra con un prompt bien hecho sobre el modelo base.
En KOM Agencia Digital diseñamos sitios web preparados para IA, con arquitectura semántica, Schema.org estructurado y llms.txt, que son la base para que un sistema RAG pueda alimentarse del contenido de tu propia web. Si quieres conversar sobre cómo estructurar tu contenido para que sea legible por sistemas de generación aumentada, revisa nuestro servicio de posicionamiento GEO o escríbenos a hola@kom.pe. También puedes ver cómo aplicamos estas ideas en diseño web WordPress orientado a GEO desde el primer momento.
Fuentes citadas
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401. NeurIPS 2020. https://arxiv.org/abs/2005.11401
- Ley N° 29733, Ley de Protección de Datos Personales. Congreso de la República del Perú. https://www.gob.pe/institucion/congreso-de-la-republica/normas-legales/243470-29733
- Decreto Supremo 016-2024-JUS. Nuevo Reglamento de la Ley 29733 (publicado 30/11/2024). https://www.gob.pe/
- Decreto Legislativo 1623 (publicado 04/08/2024). Diario Oficial El Peruano. https://busquedas.elperuano.pe/dispositivo/NL/2312442-1
- SUNAT – IGV Servicios Digitales (orientación oficial). https://orientacion.sunat.gob.pe/igv-servicios-digitales
- Decreto Supremo 115-2025-PCM. Reglamento de la Ley 31814 de Inteligencia Artificial (publicado 09/09/2025). https://busquedas.elperuano.pe/dispositivo/NL/2436426-1
- Anthropic – Claude Haiku 4.5 pricing oficial. https://www.anthropic.com/claude/haiku
- Pinecone – Pricing oficial y planes. https://www.pinecone.io/pricing/
- BCP implementará IA en asistentes virtuales (Infobae Perú, 27/11/2023). https://www.infobae.com/peru/2023/11/27/bcp-implementara-inteligencia-artificial-en-su-asistente-virtual-de-voz-en-el-primer-trimestre-del-2024/
10. BCP atiende consultas telefónicas con IA – asistente virtual Clara (T21, mayo 2024). https://t21.pe/bcp-consultas-telefonicas-inteligencia-artificial-ia








