Gratis Hosting
+ Dominio .com
+ Correos Corporativos
+ Certificado SSL
+ Primer año de servicios 100% Gratis.
+Promoción valida para clientes de Diseño Web, Tiendas Virtuales y Landing Pages.

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

RAG: como crear un asistente de IA con tus propios datos

RAG asistente IA — Inteligencia artificial en Perú | KOM Agencia Digital

Que es RAG y por que cambia la forma de trabajar con IA

Si alguna vez le has preguntado algo muy especifico a ChatGPT sobre tu negocio y te ha respondido con datos generales o, peor, inventados, ya conoces el problema. Los modelos de lenguaje saben mucho de lo que existe en internet hasta su fecha de corte, pero no saben nada de tu catalogo, de tus precios, de tus politicas internas ni del manual que le entregas a cada cliente nuevo. Ahi entra RAG.

RAG significa Retrieval-Augmented Generation, o sea, generacion aumentada por recuperacion. La idea es sencilla de explicar: antes de que el modelo responda, buscamos en tu base de datos los fragmentos de informacion mas relevantes a la pregunta del usuario y se los pasamos al modelo como contexto. Asi, en lugar de inventar, responde con tus datos. Es la diferencia entre un asistente que repite lo que leyo en internet y uno que ha leido tu empresa de pe a pa.

Para una pyme peruana esto abre una posibilidad concreta: armar un chatbot interno que conozca tus procesos, un asistente para soporte al cliente que responda con tu base de conocimiento real, o una herramienta de busqueda inteligente sobre miles de documentos. Y lo mejor es que ya no necesitas un equipo de cinco ingenieros para montarlo. En este articulo te explico como funciona por dentro, que piezas necesitas, cuanto cuesta de verdad y por donde empezar.

Como funciona RAG por dentro sin tecnicismos

Imaginate que tu empresa tiene 300 documentos: manuales, politicas, fichas tecnicas, preguntas frecuentes, contratos modelo, casos resueltos. Un humano nuevo tardaria semanas en leerlos. Un modelo de IA tampoco puede meterse todo eso en la cabeza cada vez que respondes, porque hay un limite de cuanto texto puede procesar a la vez. RAG resuelve esto en cuatro pasos.

Primero, partes los documentos en pedacitos manejables, llamados chunks. Cada pedacito tiene entre 200 y 800 palabras segun como configures el sistema. Segundo, conviertes cada pedacito en un vector numerico llamado embedding. Piensa en el embedding como una huella matematica que captura el significado del texto. Dos textos que hablan de lo mismo tienen embeddings parecidos, aunque usen palabras distintas. Tercero, guardas todos esos vectores en una base de datos especializada, la vector database.

Cuando un usuario hace una pregunta, conviertes su pregunta tambien en un vector, buscas en la base los 3 o 5 chunks mas cercanos en significado, y se los pasas al modelo de lenguaje junto con la pregunta. El modelo entonces redacta una respuesta basada en esos fragmentos. Cuarto y ultimo: el modelo cita las fuentes para que el usuario pueda verificar de donde salio la respuesta. Eso ultimo es clave para que la gente confie.

Que es una vector database y cual te conviene

La vector database es el corazon del sistema. Hay varias opciones en el mercado y cada una tiene su lado bueno y su lado complicado. Te resumo las cuatro mas populares para que decidas con criterio.

Pinecone es la opcion comercial mas conocida. Se administra en la nube, tiene plan gratuito para empezar, es muy rapida y no necesitas preocuparte por la infraestructura. La desventaja es que pagas por uso y los costos pueden subir si manejas volumenes grandes. Chroma es de codigo abierto, gratis si la corres en tu servidor, y muy popular para prototipos. Es perfecta para arrancar un proyecto pequeno o mediano sin gastar un sol en licencias.

Qdrant tambien es open source y tiene una version cloud bastante competitiva. Mucha gente la elige porque es rapida y permite filtros complejos, ideal cuando necesitas combinar busqueda semantica con condiciones tipo categoria, fecha o cliente. Weaviate es otra alternativa fuerte, con buen rendimiento y modulos que se integran con varios modelos de embeddings de manera nativa. Para una pyme que esta aprendiendo, mi recomendacion es empezar con Chroma local o Pinecone en su plan gratis. Mas adelante puedes migrar.

Casos de uso reales para una pyme peruana

Esto no es ciencia ficcion. Hoy mismo hay negocios en Lima y provincias que estan usando RAG para tareas concretas. Te cuento tres escenarios que veo seguido y que valen la pena.

El primero es un chatbot interno para empleados. Imaginate que tienes 40 personas en tu empresa y todos los lunes el area de RRHH responde las mismas preguntas: como solicito vacaciones, cual es el horario de refrigerio, que cubre el seguro, donde esta la politica de gastos. Con RAG indexas el reglamento interno, los manuales y las politicas, y el chatbot responde al toque. Liberas tiempo del equipo de RRHH y los empleados resuelven sus dudas sin esperar.

El segundo es soporte al cliente con base de conocimiento. Las pymes que venden software, electrodomesticos o productos tecnicos suelen tener manuales largos y un equipo de soporte saturado. Un asistente RAG entrenado con esos manuales puede atender el 60 u 80 por ciento de las consultas en primera linea, dejando a tus humanos solo los casos complejos. Ademas, responde 24/7, algo imposible para una pyme con un equipo chico.

El tercero es busqueda inteligente en documentos legales o contractuales. Si manejas contratos, fichas tecnicas o documentacion regulatoria, encontrar la clausula exacta que buscas puede llevarte horas. Con RAG le preguntas en lenguaje natural y el sistema te lleva al fragmento exacto, citando el documento y la pagina.

Implementacion practica con OpenAI o Claude

Vamos al grano tecnico, pero sin meternos en codigo. Para armar un RAG necesitas tres servicios: un modelo de embeddings, una vector database y un modelo de lenguaje (LLM) que genere la respuesta final.

Del lado de OpenAI, el modelo de embeddings mas usado hoy es text-embedding-3-small, que cuesta aproximadamente 0.02 dolares por cada millon de tokens. Para que te hagas una idea, un millon de tokens equivale a unas 750 mil palabras, asi que indexar una base de 500 documentos de 5 paginas cada uno te puede costar menos de un dolar. El LLM que genera la respuesta puede ser GPT-4o o GPT-4o-mini, segun el balance que quieras entre calidad y costo.

Si prefieres Claude de Anthropic, la logica es la misma: usas embeddings (puedes seguir usando los de OpenAI o los de Voyage AI, que Anthropic recomienda) y luego envias el contexto recuperado a Claude para que redacte la respuesta. Claude es especialmente bueno cuando la respuesta requiere razonamiento largo o citar varias fuentes a la vez.

Para conectar todo, frameworks como LangChain y LlamaIndex hacen el trabajo pesado. Te permiten armar el pipeline completo en unas pocas lineas de codigo, desde leer el PDF hasta servir la respuesta en un chat. Si no eres programador, hay plataformas no-code como Voiceflow, Dust o Chatbase que te dejan armar un RAG arrastrando bloques.

Cuanto cuesta de verdad montar un RAG

Aqui es donde la gente se asusta o, peor, se ilusiona con cifras irreales. Te doy numeros concretos para una pyme con un caso de uso mediano: 500 documentos indexados, 1000 consultas al mes, cada consulta con un contexto de unos 2000 tokens y una respuesta de 500.

Indexacion inicial de embeddings: entre 0.50 y 2 dolares por unica vez. Vector database: gratis si usas Chroma en tu servidor o el plan free de Pinecone, o entre 20 y 70 dolares al mes si subes a un plan pagado. Generacion de respuestas con GPT-4o-mini: aproximadamente 5 a 15 dolares al mes por las 1000 consultas. Hosting del backend que conecta todo: entre 5 y 25 dolares al mes en plataformas como Render, Railway o Vercel.

En total, un RAG funcional para pyme arranca entre 30 y 120 dolares al mes en infraestructura, sin contar el desarrollo inicial. Si tienes un desarrollador en planilla, el armado toma una o dos semanas. Si lo contratas afuera, en Peru los precios van de 3000 a 12 mil soles segun la complejidad. Compara eso con lo que cobra hoy un agente de soporte y haz tu propio calculo.

Errores comunes que matan un proyecto RAG

He visto a varios emprendedores entusiasmarse con RAG y terminar con un proyecto que no funciona. Casi siempre por las mismas razones. Te las paso para que no caigas en ellas.

El primer error es indexar documentos sucios o desordenados. Si tus PDFs son escaneos sin OCR, si los manuales tienen tablas mal estructuradas, o si los contenidos estan duplicados o desactualizados, tu RAG va a responder mal. La regla de oro: la calidad de la respuesta nunca supera la calidad de los datos. Antes de indexar, limpia.

El segundo error es no medir nada. Mucha gente pone el chatbot en produccion y nunca revisa que preguntan los usuarios ni si las respuestas son correctas. Necesitas un sistema simple de evaluacion: una muestra de 50 preguntas reales, las respuestas que da el sistema, y una revision manual o automatica semanal. Sin eso, no sabes si estas mejorando o empeorando.

El tercer error es no manejar las preguntas fuera de alcance. Si alguien le pregunta a tu chatbot sobre el clima o sobre politica, debe responder con elegancia que ese tema no es lo suyo. Si no defines bien el alcance, el modelo improvisa y queda mal parado. Esto se resuelve con un buen prompt de sistema y filtros previos.

Como medir si tu RAG funciona bien

Un RAG no es un juguete, es una herramienta de negocio. Y como toda herramienta de negocio, hay que medirla. Hay tres metricas que vale la pena trackear desde el dia uno.

La primera es precision de recuperacion: de los chunks que el sistema trae, cuantos son realmente relevantes a la pregunta. Si trae basura, el modelo responde basura. La segunda es fidelidad de la respuesta: si lo que dice el modelo esta respaldado por los chunks recuperados o si se esta inventando cosas. Aqui hay herramientas como Ragas o TruLens que automatizan parte de esta evaluacion.

La tercera es satisfaccion del usuario final. Pon un boton de pulgar arriba y pulgar abajo despues de cada respuesta. Revisa los pulgares abajo todas las semanas. Esa senal es oro puro porque te dice que casos estan fallando en la practica, no en teoria.

Seguridad y datos sensibles en RAG

Si vas a indexar informacion confidencial (contratos, datos de clientes, finanzas), hay tres cosas que debes resolver antes de prender el sistema. Primero, encriptacion en transito y en reposo: tanto los embeddings como los documentos originales deben viajar y guardarse encriptados.

Segundo, control de acceso. No todos los empleados deben ver los mismos documentos. Tu RAG debe respetar los permisos: si Juan no puede ver el contrato del cliente X, su consulta no debe poder traer ese contrato. Esto se implementa con metadatos y filtros en la vector database. Tercero, politica de retencion y borrado: define cuanto tiempo se guardan las consultas y como se borran si un usuario lo pide.

Para datos verdaderamente sensibles, considera modelos que corran en tu propia infraestructura, como Llama 3 o Mistral autohospedados, en lugar de enviar todo a APIs externas. La calidad puede ser un poco menor, pero el control es total.

Por donde empezar si nunca has hecho un RAG

Mi recomendacion, basada en lo que he visto funcionar en pymes peruanas, es empezar pequeno. Elige un caso de uso acotado: por ejemplo, un chatbot que responda solo preguntas de RRHH usando el reglamento interno. No 300 documentos: 10. No 50 consultas distintas: las 20 que se hacen mas seguido.

Arma una prueba de concepto en dos semanas con Chroma local, embeddings de OpenAI y GPT-4o-mini para generar respuestas. Usala internamente un mes, recoge feedback, ajusta los chunks y el prompt, y recien despues amplia el alcance. Esa disciplina de empezar chico te ahorra dinero, te ensena donde estan los problemas reales y te permite escalar con base.

Si en cambio sales con todo a la vez, terminas con un proyecto caro, lento de iterar y dificil de evaluar. RAG es una tecnologia poderosa, pero como toda herramienta nueva, hay que aprender a usarla con calma.

Preguntas frecuentes

Necesito saber programar para implementar RAG?

No es estrictamente necesario, aunque ayuda mucho. Existen plataformas no-code como Chatbase, Voiceflow o Dust que te permiten armar un RAG funcional subiendo tus documentos y configurando el comportamiento desde una interfaz visual. Si quieres mas control, herramientas como LangChain o LlamaIndex requieren conocimientos de Python o JavaScript. Para una pyme que recien explora, lo mas eficiente suele ser arrancar con una plataforma no-code y migrar a codigo cuando el caso de uso lo justifique.

Cual es la diferencia entre RAG y fine-tuning?

Son dos enfoques distintos para adaptar un modelo de IA a tu informacion. RAG no modifica el modelo: simplemente le pasa informacion relevante en cada consulta. Fine-tuning si modifica los pesos del modelo entrenandolo con tus datos. RAG es mas barato, facil de actualizar (solo reindexas cuando cambian los documentos) y permite citar fuentes. Fine-tuning es mas caro, requiere reentrenar cuando hay cambios y es util cuando necesitas que el modelo aprenda un estilo o formato muy especifico, no solo informacion.

Que pasa si mis documentos estan en varios idiomas?

Los modelos de embeddings modernos como text-embedding-3-small de OpenAI son multilingues, asi que pueden indexar y buscar en espanol, ingles, portugues y muchos idiomas mas sin problema. Eso si, es buena practica que el idioma de la consulta coincida con el idioma mayoritario de los documentos para mejores resultados. Si manejas un mix grande, considera mantener bases separadas por idioma o usar embeddings especializados.

Cuanto demora armar un RAG funcional desde cero?

Una prueba de concepto sencilla, con 10 a 50 documentos y un caso de uso acotado, puede estar lista en una o dos semanas si trabajas con un desarrollador con experiencia. Un sistema productivo con interfaz, autenticacion, evaluacion continua y manejo de varios cientos de documentos suele requerir entre uno y tres meses. La parte tecnica no es la mas lenta: lo que mas tiempo toma es preparar los datos y ajustar el comportamiento del chatbot a casos reales.

Que hago si el RAG responde con informacion incorrecta?

Lo primero es identificar donde esta el error: si el sistema trajo el chunk equivocado (problema de recuperacion) o si trajo el chunk correcto pero el modelo lo interpreto mal (problema de generacion). Para el primer caso, ajusta el tamano de los chunks, prueba con otro modelo de embeddings o agrega filtros por metadatos. Para el segundo, mejora el prompt de sistema indicandole al modelo que solo responda con la informacion provista y que diga no tengo esa informacion cuando no este en los chunks recuperados.

Puedo usar RAG con WhatsApp para mis clientes?

Si, es uno de los casos de uso mas frecuentes en Peru. Necesitas conectar tu RAG con la API oficial de WhatsApp Business (a traves de Meta o de un proveedor como Twilio o 360dialog) y armar el flujo: cuando llega un mensaje, lo envias a tu RAG, tomas la respuesta y la devuelves al cliente. Importante: define bien cuando el bot debe pasar la conversacion a un humano, sobre todo para temas sensibles como reclamos, devoluciones o consultas complejas.

Cuantos documentos puedo indexar en un RAG?

Tecnicamente, las vector databases modernas manejan millones de chunks sin problema. En la practica, lo importante no es la cantidad sino la calidad y la organizacion. He visto RAGs con 50 documentos bien curados que responden mejor que otros con 5000 documentos desordenados. Si tu base supera los 10 mil chunks, considera agregar tecnicas adicionales como reranking (un segundo paso que reordena los resultados) o busqueda hibrida (combinar busqueda semantica con busqueda por palabras clave).

Conviene usar modelos open source autohospedados o APIs comerciales?

Depende del volumen y de la sensibilidad de los datos. Para empezar y para volumenes bajos o medios, las APIs comerciales (OpenAI, Anthropic, Google) son mas rapidas de implementar y suelen tener mejor calidad de respuesta. Para volumenes muy altos, datos altamente confidenciales o cuando hay restricciones regulatorias que prohiben enviar informacion a terceros, vale la pena evaluar modelos autohospedados como Llama 3 o Mistral. El costo total de propiedad de autohospedar suele ser mayor que las APIs hasta llegar a volumenes considerables.

Que metricas mira un cliente antes de aprobar el proyecto?

En mi experiencia, los tres numeros que mas pesan son: porcentaje de consultas resueltas sin intervencion humana, tiempo promedio de respuesta y satisfaccion del usuario medida con una encuesta sencilla. Si logras automatizar entre 50 y 70 por ciento de las consultas con una satisfaccion superior al 80 por ciento, tienes un proyecto exitoso. Esos numeros tambien te sirven para calcular el retorno de inversion comparando con el costo del equipo de soporte humano.

Picture of Christian Otero
Christian Otero
Founder & CEO @ KOM Agencia Digital | Pionero en Generative Engine Optimization (GEO) y SEO Técnico Internacional | +24 Años escalando operaciones digitales | Ex-Nextel, Entel, Prosegur | Ingeniero de Sistemas con Postgrado en Marketing Digital y Comercio Exterior.
Artículos relacionados

¿Preguntas?
¡Te asesoramos gratis!

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Si prefieres llámanos o escríbenos...

Estamos atentos a tu comunicación para poder implementar tus nuevas herramientas digitales.

EMPRESA REGISTRADA Ante SUNAT e INDECOPI PAGO 100% SEGURO A través de KOM Pay TRANSPARENCIA TOTAL Precios 100% Públicos POTENCIADOS CON IA Usamos Inteligencia Artificial