RAG (Retrieval-Augmented Generation)
Piensa en RAG como un examen a libro abierto. En lugar de depender solo de la memoria — los datos de entrenamiento del modelo — el sistema busca materiales de referencia relevantes antes de responder. RAG es la version sistematica de esto: encontrar automaticamente los pasajes correctos de una base de conocimiento, extraer los fragmentos mas relevantes y usarlos para formular una respuesta bien fundamentada y basada en evidencia en lugar de generar solo a partir de patrones. Es la arquitectura que convierte "mejor suposicion" en "esto es lo que dice la documentacion realmente."
Prerrequisitos
Antes de leer esta pagina, asegurate de estar familiarizado con:
- Grounding — el concepto mas amplio de conectar la salida de IA con datos reales
- Context — la ventana limitada de informacion disponible para el modelo
- Tool Use — como los modelos llaman funciones externas para datos en tiempo real
- Hallucination — el problema que RAG ayuda a resolver
Como Funciona
El diagrama muestra el pipeline RAG de cinco etapas. Primero, el usuario envia una pregunta. La consulta se convierte en un vector embedding — una representacion numerica que captura su significado semantico, no solo palabras clave. Este embedding se compara contra una base de conocimiento de documentos pre-embebidos para encontrar los fragmentos semanticamente mas similares. Los top-k fragmentos coincidentes se recuperan y combinan con la consulta original para formar un prompt aumentado. Finalmente, el LLM genera una respuesta fundamentada en la evidencia recuperada en lugar de depender unicamente de los datos de entrenamiento.
La base de conocimiento puede ser cualquier cosa: documentacion, codebases, wikis, manuales de producto, referencias de API, politicas internas. Los documentos se pre-procesan — se dividen en fragmentos y se convierten a embeddings — para que puedan buscarse eficientemente por similitud semantica. La calidad de la recuperacion afecta directamente la calidad de la respuesta. Documentos relevantes entrando significa respuestas fundamentadas saliendo. Documentos irrelevantes o mal fragmentados significan que el modelo trabaja con mala evidencia, y mala evidencia produce malas respuestas sin importar cuan capaz sea el modelo.
Nota que el prompt aumentado debe caber dentro de la ventana de contexto del modelo. Por esto la recuperacion selecciona solo los top-k fragmentos mas relevantes en lugar de meter todo. Estrategias inteligentes de fragmentacion y clasificacion de relevancia son lo que separa los sistemas RAG efectivos de los inefectivos — la calidad de la recuperacion es frecuentemente mas importante que el modelo mismo.
Por Que Importa
RAG es la arquitectura detras de la mayoria de las aplicaciones de IA en produccion hoy: preguntas y respuestas sobre documentos, busqueda de codigo, bots de soporte al cliente que referencian documentacion real del producto, y bases de conocimiento internas que presentan politicas relevantes. Es la defensa principal contra hallucination en casos de uso empresarial. Sin el, los modelos dependen de datos de entrenamiento que pueden estar desactualizados, incompletos o simplemente equivocados para tu dominio especifico.
RAG complementa tool use. Las herramientas obtienen datos en tiempo real a traves de APIs y bases de datos, mientras que RAG proporciona acceso a conocimiento estatico como documentacion y politicas. Muchos sistemas en produccion combinan ambos enfoques. Cuando tu asistente de codigo busca en tu codebase archivos relevantes antes de responder una pregunta sobre tu proyecto, eso es RAG en accion — recuperando contexto para que el modelo pueda razonar sobre evidencia en lugar de adivinar.