Tokens
Los Tokens son para un LLM lo que los bloques individuales de LEGO son para un modelo: las piezas pequenas y estandarizadas con las que el sistema realmente trabaja. Tu escribes palabras, pero el modelo ve tokens: identificadores numericos que representan palabras, partes de palabras o incluso signos de puntuacion. Una sola palabra puede ser un token o varios, y entender esta distincion es clave para trabajar efectivamente con IA.
Como Funciona
Antes de que un LLM pueda procesar cualquier texto, un tokenizer lo divide en tokens. Como muestra el diagrama, la oracion "The cat sat on the mat" se convierte en seis tokens individuales, cada uno mapeado a un identificador numerico. El modelo trabaja enteramente con estos identificadores, no con texto crudo.
La tokenizacion no es tan simple como dividir por espacios. Palabras comunes como "the" o "is" son tipicamente un solo token, pero palabras menos comunes se dividen en piezas de subpalabras. Por ejemplo, "tokenization" podria convertirse en ["token", "ization"] — dos tokens. Palabras clave de programacion, puntuacion y espacios en blanco tienen todos sus propios identificadores de token. El · antes de las palabras en el diagrama representa el caracter de espacio, que se codifica como parte del token mismo.
Diferentes modelos usan diferentes tokenizers. GPT-4 usa un tokenizer llamado cl100k_base con aproximadamente 100,000 tokens posibles. Claude usa su propio tokenizer. Esto significa que el mismo texto puede producir diferentes conteos de tokens dependiendo del modelo, algo a tener en cuenta al estimar costos o uso de contexto.
El tokenizer se entrena por separado del modelo mismo. Aprende a dividir texto eficientemente encontrando patrones comunes en un corpus grande. Las palabras frecuentes obtienen su propio token (mas economico), mientras que las palabras raras se dividen en piezas de subpalabras (mas tokens, mayor costo).
Por Que Importa
El conteo de tokens controla directamente tres cosas que te importan: costo, velocidad y limites. Los precios de API son por token, tanto por lo que envias (tokens de entrada) como por lo que el modelo genera (tokens de salida). Mas tokens tambien significan respuestas mas lentas, ya que el modelo los procesa secuencialmente.
Lo mas importante es que cada modelo tiene una ventana de contexto — un numero maximo de tokens que puede manejar en una sola conversacion. GPT-4 Turbo soporta 128K tokens; Claude soporta hasta 200K. Si tu prompt excede el limite, se trunca y el modelo pierde contexto. Saber como funciona la tokenizacion te ayuda a escribir prompts mas eficientes, estimar costos de API con precision y entender por que algunas entradas se cortan inesperadamente.