Context

El Context es la memoria de trabajo del modelo — una ventana de tamano fijo que contiene todo lo que el modelo puede "ver" a la vez. Piensa en ello como un escritorio con superficie limitada: puedes extender papeles, pero eventualmente te quedas sin espacio y necesitas guardar algunos. Lo que esta en el escritorio ahora mismo es todo con lo que el modelo tiene que trabajar.

Como Funciona

Cada large language model tiene una ventana de contexto medida en tokens — tipicamente desde 4K hasta 128K o mas. Todo lo que el modelo necesita va dentro de esta ventana: el system prompt que establece su comportamiento, el historial completo de la conversacion, cualquier documento o codigo que incluyas, y espacio para la propia respuesta del modelo.

Como muestra el diagrama, los mensajes llenan la ventana de arriba hacia abajo. Cuando la ventana alcanza su capacidad, el contenido mas antiguo se trunca — se descarta silenciosamente para hacer espacio a nueva entrada. El modelo no tiene memoria fuera de esta ventana. Si un mensaje fue removido, el modelo no sabe que alguna vez existio. No hay almacenamiento oculto, no hay recuerdo a largo plazo.

Por esto "context-aware" es un termino significativo: significa que el modelo esta usando todo lo que actualmente esta en su ventana para moldear la respuesta. Un modelo con mas contexto puede mantener conversaciones mas largas, procesar documentos mas grandes y mantener coherencia en interacciones extendidas. Pero el contexto no es gratis — cada token en la ventana consume computo, lo que significa que ventanas mas grandes cuestan mas por solicitud.

Por Que Importa

Entender los limites de contexto es esencial para construir flujos de trabajo de IA efectivos. Las conversaciones largas eventualmente perderan sus mensajes mas tempranos, lo que significa que el modelo puede "olvidar" instrucciones que diste al principio. Por esto los chatbots a veces parecen perder el hilo de lo que les dijiste veinte mensajes atras — esos mensajes fueron silenciosamente descartados de la ventana.

Los sistemas RAG (cubiertos en Grounding) deben hacer caber los documentos recuperados dentro de la ventana junto con la pregunta y el system prompt. Si tus documentos son demasiado grandes, necesitas fragmentarlos, resumirlos o seleccionar solo los pasajes mas relevantes.

Desde la perspectiva de costos, el contexto es el principal impulsor de los precios de API. Enviar 100K tokens de contexto para una pregunta simple es un desperdicio. La gestion inteligente del contexto — mantener solo lo relevante y recortar lo que no lo es — es una habilidad fundamental para construir aplicaciones impulsadas por IA que sean tanto efectivas como economicas.

Como Funciona​

Por Que Importa​

Como Funciona

Por Que Importa