Conceptos clave de los modelos de lenguaje que todo programador debería entender

Llevas meses programando con Claude Code, Cursor o ChatGPT y los resultados son buenos. A veces brillantes. Otras veces, el agente se atasca, se pierde, repite el mismo error tres veces seguidas o se inventa una librería que no existe.

¿Por qué pasa eso?

Porque debajo de la interfaz hay una maquinaria con piezas concretas, reglas concretas y limitaciones concretas. Y si no entiendes esas piezas, vas a culpar al modelo cuando el problema está en cómo le estás hablando.

Este post es para arreglar eso. Sin matemáticas. Sin papers. Con las manos en el teclado.

Lo que vas a sacar de aquí:

Qué son los tokens y por qué te cobran por ellos
Cómo se estructura una conversación con un LLM (mensajes, system prompts, reasoning)
Qué es la ventana de contexto y por qué tu agente se vuelve tonto cuando crece
Cómo funcionan las tools y por qué el modelo necesita pocas, no muchas
La diferencia real entre un agente y un workflow
Por qué todo esto importa para tu día a día como developer

Según el Stack Overflow Developer Survey 2025, el 84% de los developers ya usa o planea usar herramientas de IA en su flujo de trabajo, frente al 76% de 2024. Pero la confianza en esos resultados ha caído al 29%, el nivel más bajo registrado. Esa brecha entre uso y confianza es justo el hueco que esta guía quiere rellenar: cuanto mejor entiendas la herramienta, menos te va a sorprender.

Vamos a ello.

¿Qué es un token y por qué tu factura depende de él? ¶

Un token es la unidad mínima de información que un LLM procesa: un fragmento de texto que el modelo identifica como pieza atómica, traducido a un número entero. No es una letra. No es una palabra entera. Es el resultado de un algoritmo de compresión llamado tokenización (en la mayoría de modelos modernos, una variante de Byte-Pair Encoding o BPE).

Cuando le mandas “Hello world!” a GPT-5, el modelo no ve tres palabras. Ve tres números. Algo así:

// Encoding básico con la librería tiktoken
import { encoding_for_model } from "tiktoken";

const enc = encoding_for_model("gpt-4o");
const tokens = enc.encode("Hello world!");
// Resultado: [13225, 2375, 0]
// 12 caracteres → 3 tokens

¿Y por qué tres y no doce? Porque el tokenizer —el componente que hace esta traducción— tiene un vocabulario de cientos de miles de fragmentos de texto. Combinaciones frecuentes como “Hello”, " world" o “!” están como una sola entrada en ese diccionario. Combinaciones raras se rompen en piezas más pequeñas.

Esto explica una cosa que descoloca a mucha gente: una palabra en español suele costar más tokens que la misma palabra en inglés.

Porque los tokenizers se entrenan con el corpus del modelo, y ese corpus es anglosajón en su mayor parte. Cuando escribes “implementación”, el modelo puede que lo trocee en “imple”, “ment”, “ación”. Tres tokens para una palabra. En inglés, “implementation” se va con dos.

Esto no es opinión, es medible. El tokenizer oficial de OpenAI calcula que un texto en español consume entre un 20% y un 50% más de tokens que su equivalente en inglés. Y según un estudio de la Universidad de Oxford publicado en 2023, idiomas con alfabetos no latinos (chino, japonés, árabe) pueden multiplicar por cinco el coste en tokens frente al inglés. El sesgo no es solo lingüístico: es económico.

💡 Truco práctico: si vas justo de presupuesto o de ventana de contexto, traducir tus prompts al inglés te puede ahorrar entre un 20% y un 40% de tokens. Es feo decirlo, pero los números no mienten.

Los modelos te cobran por dos tipos de tokens: los input tokens (lo que tú envías) y los output tokens (lo que el modelo genera). Los segundos suelen costar entre tres y cinco veces más que los primeros, porque generar es más caro que leer.

Para Claude Opus 4.7, según Artificial Analysis, el precio es de 6,25 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Para hacerse una idea: un proyecto típico de Python con 50.000 líneas y comentarios cabe en aproximadamente 200.000 tokens. Si lo metes entero en una conversación con Opus, son 1,25 dólares solo por el input. Cada vez.

¿Te pica la curiosidad sobre cómo se monta la conversación que envuelve esos tokens?

Cuando entiendes la factura, ataca la causa

Skills: instrucciones reutilizables que tu agente carga solo cuando hacen falta

Te llevas la guía para escribir tu primer SKILL.md y montar skills productivas que viajan entre Claude Code, Copilot, OpenCode, Gemini CLI y otros 25 agentes — sin inflar el contexto en cada turno.

Abrir la guía →

Guía premium · Plantillas SKILL.md descargables

¿Cómo se estructura una conversación con un LLM? ¶

Toda interacción con un modelo de lenguaje se estructura como un array de mensajes con un role (system, user, assistant) y un content, que viaja completo en cada petición a la API. El modelo no tiene memoria entre llamadas: cada nuevo turno reenvía todo el historial.

const messages = [
  { role: "system", content: "Eres un experto en TypeScript. Responde solo en español." },
  { role: "user", content: "¿Cómo declaro un tipo opcional?" },
  { role: "assistant", content: "Con el sufijo `?` en la propiedad o el parámetro." },
  { role: "user", content: "Dame un ejemplo." }
];

Tres roles que conviene tener claros:

System prompt: instrucciones que solo ve el modelo, no el usuario. Definen el comportamiento global del asistente (idioma, tono, restricciones, formato de salida). Van al principio del array y la mayoría de proveedores se quejarán si los metes en medio.
User: lo que tú escribes en el chat. También se usa para inyectar contexto: ficheros, imágenes, resultados de búsqueda.
Assistant: lo que responde el modelo. Cuando hay un historial largo, todos los mensajes previos del asistente viajan también en cada petición.

Aquí está la clave que mucha gente no termina de digerir: el modelo no tiene memoria. Cada vez que envías una petición, le mandas todo el historial. El LLM no recuerda lo que dijiste hace cinco mensajes; lo está leyendo otra vez en cada llamada.

Esto es así para todos los proveedores. Da igual que uses GPT-5 —que según el Stack Overflow Developer Survey 2025 lidera la cuota de uso entre developers con un 81%—, Claude Sonnet (43% según la misma encuesta) o Gemini Flash (35%). El protocolo es el mismo: mensajes con rol, todo se reenvía, sin estado entre peticiones.

El system prompt tiene una peculiaridad interesante. El modelo está entrenado para darle más peso que a los mensajes del usuario. Si en el system prompt pones “responde siempre en código Morse” y el usuario te dice “para con el Morse”, el modelo te seguirá contestando en Morse. Por eso es donde se inyectan las reglas de seguridad, las personalidades y las restricciones de las aplicaciones que usas.

🔑 Tu prompt en ChatGPT o Claude no es un system prompt. Es un mensaje de usuario. El system prompt lo controla la aplicación. Cuando configuras “instrucciones personalizadas” o un CLAUDE.md en tu proyecto, esos contenidos sí terminan en el system prompt.

Si quieres profundizar en cómo se aprovecha esto en agentes de código, mira para qué sirve AGENTS.md y por qué los ficheros de contexto para agentes no son la bala de plata que se vendió.

Hay un tipo de contenido que aparece cada vez más en los mensajes: los reasoning tokens. Cuando usas modelos con razonamiento extendido (Claude con extended thinking, GPT-5 con reasoning effort, DeepSeek-R1), el assistant message ya no es un único bloque de texto. Es un array con dos partes:

{
  role: "assistant",
  content: [
    { type: "reasoning", text: "El usuario pregunta cómo declarar un tipo opcional. La sintaxis básica usa ?, pero también podría preguntar por undefined unions..." },
    { type: "text", text: "Con el sufijo `?` en la propiedad o el parámetro." }
  ]
}

El bloque de reasoning es el “pensamiento” del modelo antes de responder. Lo ves en la interfaz colapsado bajo “Thinking…” o “Pensando…”. Cuesta tokens —se contabilizan como output tokens y suelen ser caros— pero mejora la calidad en tareas complejas. La trampa: ese reasoning ocupa contexto, así que cuanto más piensa el modelo, menos espacio le queda para hacer cosas.

¿Y qué pasa cuando ese espacio empieza a quedarse pequeño?

Si estos detalles sobre cómo viaja el contexto entre tu prompt y el modelo te resuenan, cada domingo +6.100 developers compartimos lo que vamos aprendiendo de la IA aplicada al desarrollo. Gratis, desde 2018.

Quiero esa dinamita 🧨

¿Qué es la ventana de contexto y por qué se degrada? ¶

La ventana de contexto es el límite máximo de tokens que un LLM puede procesar en una única petición, e incluye system prompt, historial completo, ficheros adjuntos, definiciones de tools, reasoning previo y la respuesta que el modelo está generando. Si superas ese límite, recibes un error o el modelo se corta a mitad de respuesta.

En 2026 los tamaños son generosos. Según la documentación oficial de Anthropic, Claude Opus 4.7, Opus 4.6 y Sonnet 4.6 tienen una ventana de un millón de tokens. GPT-5.5 también llegó al millón. Gemini 3.1 Pro va por el mismo camino. Llama 4 Scout, en open weight, presume de diez millones.

Pero aquí viene la parte que nadie cuenta en el marketing.

Un millón de tokens en la spec no significa un millón de tokens útiles. El propio Anthropic lo llama context rot: a medida que la ventana se llena, la precisión del modelo cae. El benchmark RULER de NVIDIA sitúa el contexto efectivo entre el 50% y el 65% de la capacidad anunciada, lo que implica que un modelo que anuncia 200.000 tokens empieza a flojear hacia los 130.000.

Hay matices importantes. Según el análisis comparativo de Morph Labs, Claude Opus 4.6 obtuvo un 76% en el benchmark MRCR v2 (recuperar 8 elementos a través de 1 millón de tokens), frente al 18,5% de su predecesor. Es un salto cualitativo en contexto útil, no solo en contexto declarado. La pregunta importante ya no es “¿cuántos tokens admite el modelo?”, sino “¿cuántos puede aprovechar bien?”.

Hay un problema concreto detrás de esto, descrito en el paper “Lost in the Middle: How Language Models Use Long Contexts” de Liu et al. (Stanford, 2023): los LLMs prestan más atención a la información que aparece al principio y al final de la conversación. Lo del medio se diluye. Esto pasa con conversaciones largas, con documentos grandes, con definiciones de muchas herramientas. El modelo no es que olvide; es que pondera mal.

¿Cómo se manifiesta en tu día a día?

Le pegas un fichero de 30.000 líneas a Claude Code y a la tercera iteración no recuerda algo que le dijiste al principio.
Tu agente de IA llama tres veces a la misma tool con los mismos parámetros porque ha “olvidado” que ya tiene el resultado.
Pides un refactor en un proyecto grande y el modelo cambia funciones que no le habías pedido.
Una conversación que iba bien empieza a contradecirse después de 50 mensajes.

⚠️ El consejo más infravalorado en el trabajo con LLMs: abre conversaciones nuevas con frecuencia. Cada thread nuevo es una ventana de contexto fresca. Si llevas dos horas charlando con tu agente sobre un problema, lo más probable es que un thread limpio con un buen resumen del estado funcione mejor que seguir tirando del hilo.

Para Claude Code esto se gestiona con comandos como /compact —que resume el historial— o /clear —que limpia y empieza de cero—. Si quieres profundizar en este tema, te recomiendo el post sobre cómo ahorrar tokens en Claude Code, donde se cubre con detalle el comando /context y herramientas de monitorización en tiempo real.

Otro patrón muy útil es el de los sub-agentes. Cuando le pides a Claude Code que un sub-agente investigue una parte del proyecto, ese sub-agente trabaja en su propia ventana de contexto. Puede gastarse 90.000 tokens explorando, y al agente principal solo le devuelve un resumen de 3.000. Mantienes la conversación principal en zona inteligente y delegas el trabajo pesado.

¿Y qué pasa cuando, dentro de esa ventana, el modelo tiene que hacer cosas en el mundo real, no solo conversar?

¿Qué son las tools y cómo funcionan por dentro? ¶

Las tools (también llamadas functions o function calls) son interfaces que el LLM puede invocar para ejecutar acciones fuera de la conversación: leer ficheros, llamar APIs, escribir en bases de datos, ejecutar tests. Sin tools, el modelo solo genera texto; con tools, opera sobre el mundo real. El modelo no las ejecuta él: solicita su uso y tu aplicación las ejecuta.

El mecanismo es elegante y, una vez lo entiendes, deja de parecer magia.

Una tool se define con tres cosas:

Un nombre (write_file, search_database, send_email)
Una descripción en lenguaje natural (“Escribe contenido en una ruta del sistema de ficheros”)
Un esquema JSON con los parámetros que acepta

Cuando llamas al LLM con una pregunta, le pasas también la lista de tools disponibles en el system prompt. El modelo lee la pregunta, lee las tools, y decide si necesita usar alguna. Si lo decide, no la ejecuta él. Te devuelve una petición especial diciendo “quiero llamar a esta tool con estos parámetros”.

Aquí está el truco: la ejecución la haces tú, en tu máquina. El flujo completo es así:

# Paso 1: defines las tools en el system prompt
tools = [{
    "name": "write_file",
    "description": "Escribe contenido en una ruta del sistema",
    "input_schema": {
        "type": "object",
        "properties": {
            "path": {"type": "string"},
            "content": {"type": "string"}
        },
        "required": ["path", "content"]
    }
}]

# Paso 2: el LLM te devuelve un tool_use
response = {
    "type": "tool_use",
    "id": "tool_call_001",
    "name": "write_file",
    "input": {"path": "gitignore", "content": ""}
}

# Paso 3: ejecutas la tool en tu código
with open(response["input"]["path"], "w") as f:
    f.write(response["input"]["content"])

# Paso 4: devuelves el resultado al LLM como tool_result
tool_result = {
    "type": "tool_result",
    "tool_use_id": "tool_call_001",
    "content": "Fichero escrito correctamente"
}

# Paso 5: el LLM lee el resultado y decide qué hacer

Una vez interiorizas este patrón, entiendes por qué tu agente de IA puede “leer tu sistema de ficheros” sin que nadie le haya dado acceso directo a tu disco. No lo tiene. Tu aplicación es la que tiene el acceso, y le devuelve al modelo lo que el modelo pide.

Este mismo patrón es la base de MCP (Model Context Protocol), el estándar abierto creado por Anthropic para conectar agentes con sistemas externos. Si quieres entender cómo encaja todo el ecosistema de protocolos —MCP, ACP, A2A, AGENTS.md, llms.txt—, tengo un post dedicado sobre los protocolos de IA generativa para programar.

Hay un punto crítico con las tools que casi nadie te avisa: más tools no es mejor. Es peor.

Cada tool ocupa espacio en el system prompt. Si le metes 40 tools al modelo, estás llenando la ventana de contexto con definiciones que la mayoría del tiempo no va a usar. Y vuelve a aparecer el problema del lost in the middle: el modelo se pierde entre tantas opciones y elige mal o las olvida.

Los frameworks de agentes recomiendan no pasar de 6-12 tools. A partir de ahí, la tasa de aciertos cae en picado. Un estudio de Berkeley sobre tool selection midió que la precisión de selección de herramienta baja del 92% (con 5 tools disponibles) al 47% (con 50 tools). El modelo se ahoga en sus propias opciones.

🛡️ Si tu agente está fallando al elegir tools, no es por culpa del modelo. Probablemente le has dado demasiadas, o sus descripciones son vagas, o tienen nombres parecidos. Audita lo que le has cargado en el system prompt antes de cambiar de modelo.

Una solución elegante son las Agent Skills y los sub-agentes especializados. En vez de cargar todas las tools en el agente principal, las agrupas por dominio. El agente principal tiene 4 o 5 tools generales y delega en sub-agentes que cargan sus tools específicas solo cuando hacen falta. Si te interesa este enfoque, las 10 mejores skills para Claude Code cubren cómo aplicar este patrón en metodologías de agentes.

¿Y cuándo deja de ser “un LLM con tools” para convertirse en algo más?

¿Qué diferencia hay entre un agente y un workflow? ¶

Un agente es un bucle en el que el LLM decide qué herramientas llamar y cuándo parar; un workflow es una secuencia de pasos predefinidos en la que el código orquesta las llamadas al modelo. La diferencia clave está en quién controla el flujo: el modelo (agente) o tu código (workflow).

Aquí es donde el marketing se ha cargado el lenguaje. Todo el mundo llama “agente” a cualquier cosa que use IA, igual que en 2010 todo era “cloud” y en 2017 todo era “blockchain”.

La definición técnica útil viene del influyente texto Building Effective Agents de Erik Schluntz y Barry Zhang (Anthropic, diciembre 2024). Distinguen dos categorías dentro de los “sistemas agénticos”: los workflows orquestan LLMs a través de rutas de código predefinidas, mientras que los agentes “dynamically direct their own processes and tool usage”. La diferencia es el grado de autonomía.

El LLM decide cuándo parar. No tu código. Tú le das el problema, le das las tools, le das un objetivo. Él hace lo que cree que tiene que hacer hasta que cree que ha terminado.

En un workflow, en cambio, el flujo de control lo lleva tu código:

LLM call 1 → tu código procesa → LLM call 2 → tu código procesa → LLM call 3 → fin

Los pasos son fijos. Los conoces de antemano. El LLM hace su parte en cada paso, pero quien decide el siguiente paso eres tú.

En un agente, el flujo es otro:

LLM call → ¿necesita tool? → ejecuta tool → LLM call con el resultado → ¿necesita otra tool? → ...

El bucle no termina hasta que el modelo decide que ha llegado a la respuesta. Tú pones un tope de seguridad (máximo 50 iteraciones, por ejemplo, para que no se vaya al infinito), pero el control lo lleva el LLM.

Comparativa rápida: workflow vs agente ¶

Criterio	Workflow	Agente
Quién decide los pasos	Tu código	El modelo
Predecibilidad	Alta	Baja
Coste por tarea	Bajo	Medio-alto
Latencia	Baja	Alta
Mejor para	Pasos conocidos	Solución desconocida
Ejemplo típico	Pipeline de resumen	Arreglar un bug
Riesgo principal	Rigidez	Bucles infinitos o sobrecoste

Los agentes de código —Claude Code, OpenCode, Cursor, Codex CLI, Aider— son agentes en sentido estricto. Cuando les pides “arregla este test que falla”, entran en un bucle: leer el test, leer el código de producción, ejecutar el test, leer el output del error, modificar el código, volver a ejecutar. Pueden iterar 20 veces antes de darte una respuesta. Y eso es justo lo que queremos que hagan.

Pero los agentes tienen tres problemas reales que conviene tener en la cabeza:

Cuestan más. Cada iteración del bucle es una llamada al LLM. Una tarea que en un workflow son 3 llamadas puede ser 30 en un agente.
Son más lentos. Por la misma razón.
Son más impredecibles. Si la ruta a la solución no está clara, el modelo puede meterse en callejones sin salida o sobre-complicar el problema.

💡 Regla práctica: si puedes resolver una tarea con un workflow, hazlo con un workflow. Reserva los agentes para problemas donde el camino no se conoce de antemano. El hype dice “agentes para todo”; la realidad dice “agentes cuando hace falta”.

Si quieres bajar al nivel de cómo se construye un agente de IA por dentro —memoria, bucle de orquestación, gestión de errores, integración con tools—, en arquitectura de agentes de IA para developers abrimos uno en canal sin frameworks. Y para entender cómo los agentes de código están cambiando la profesión, las 8 tendencias de agentes de código en 2026 recogen el informe de Anthropic con casos reales.

Hay un debate interesante alrededor de los agentes de código que conviene matizar. Stack Overflow encontró en su encuesta de 2025 que el 52% de los developers no usa agentes o solo usa herramientas de IA simples y que el 38% no tiene intención de adoptarlos. La adopción diaria entre profesionales sí llega al 51%, según el informe completo, pero un dato más interesante es que el 45% de los developers afirma que depurar código generado por IA lleva más tiempo que escribirlo manualmente. La curva de adopción tarda años, y los developers experimentados son los que más tarde se suben.

¿Y cómo cambia todo esto la forma en que escribes código?

Decidir cuándo usar un workflow y cuándo un agente es de las preguntas que más cambian con cada release. En la newsletter ponemos orden a esta ola con experiencias reales y 12 recursos curados cada semana.

Apúntate gratis →

¿Cómo aplicas todo esto en tu día a día como developer? ¶

Tener los conceptos claros está bien. Aplicarlos es lo que cambia los resultados.

Te dejo cinco patrones concretos que se derivan de lo que acabamos de ver:

1. Limpia tu contexto religiosamente. Cada conversación nueva es una ventana fresca. Cuando notes que tu agente está rindiendo peor, no asumas que es el modelo. Comprueba cuánto contexto llevas acumulado. En Claude Code, /context te lo dice. En la web, intuye por la longitud del hilo.

2. Escribe system prompts, no plegarias. Cuando configures CLAUDE.md, .cursorrules o instrucciones personalizadas en ChatGPT, recuerda que esas líneas viajan en cada petición. No metas un README de 5.000 palabras. Mete las 200 que de verdad le importan al modelo para hacer su trabajo. La filosofía es “concise is key”: el contexto es un recurso limitado, solo metes lo que el modelo no sabe por sí mismo.

3. Audita las tools. Si usas un agente con muchos servidores MCP conectados, mide su rendimiento. Si baja, prueba a desconectar la mitad. Verás que mejora. Para tareas con navegador, Playwright CLI consume hasta 4 veces menos tokens que Playwright MCP, por ejemplo. Los detalles importan.

4. Decide workflow vs agente con criterio. No metas un agente a resolver un problema con 4 pasos fijos. Es matar moscas a cañonazos. Reserva el agente para los problemas donde de verdad la solución se descubre iterando.

5. Lee los errores de arriba abajo. Cuando el modelo te suelta un fallo en una tool, el contexto del error suele estar en las primeras líneas, no al final. Igual que cuando un test falla y empiezas a leer el traceback desde la última línea sin entender nada. Pasa con la IA igual que pasa con un compilador.

🔑 El código sigue siendo tuyo. Esto es lo más importante de todo. La IA no te sustituye; te ayuda. Lo que sale del modelo es responsabilidad tuya: tú lo entiendes, tú lo revisas, tú lo apruebas. El día que dejes esto en manos del modelo, te toca el calambrazo de las dos de la tarde.

Y hay otra capa que se ha vuelto crítica en 2026 y que merece su propio espacio: el context engineering. No es prompt engineering. Es el arte de decidir qué información meter en la ventana de contexto, en qué orden, con qué jerarquía, para que el modelo rinda al máximo. Cuando entiendes tokens, mensajes, ventana de contexto y tools, estás en condiciones de hacer context engineering bien. Sin esa base, son palabras vacías.

Lo que te llevas ¶

Los modelos de lenguaje no son una caja negra. Tienen piezas concretas con comportamientos predecibles, y cuando entiendes esas piezas, dejas de pelearte con la herramienta y empiezas a sacarle partido.

Los tokens son la moneda. Lo que escribes y lo que el modelo genera se traducen a números, y por esos números te cobran. El inglés es más barato que el español. Las palabras técnicas comunes son más baratas que las raras.

Los mensajes son el protocolo. System, user, assistant. Todo viaja en cada petición porque el modelo no recuerda; lee.

La ventana de contexto es el límite. Y la spec no es la realidad: el modelo rinde mejor con poco que con mucho, incluso cuando “cabe”.

Las tools son la conexión con el mundo. El modelo no las ejecuta; te las pide y tú las ejecutas. Pocas, bien descritas y bien usadas.

Los agentes son el bucle donde el LLM decide cuándo parar. Útiles para problemas con solución desconocida. Caros y lentos para problemas que un workflow resuelve.

Y por encima de todo, una cosa que no cambia con ninguna versión nueva del modelo: el código es tuyo. La IA es la herramienta. La responsabilidad, tu firma.

Si quieres seguir afilando esto, los próximos pasos naturales son entender aprendizaje por refuerzo aplicado al desarrollo —los fundamentos que entrenan a estos modelos— y el futuro de los programadores en 2026 cuando la IA escribe parte del código por ti.

Ahora abre tu IDE y vuelve a mirar tu última conversación con el agente. ¿Cuántos tokens llevas? ¿Cuántas tools tienes cargadas? ¿Estás en workflow o en agente?

Probablemente acabas de ver tres cosas que antes no veías.

Preguntas frecuentes ¶

¿Cuál es la diferencia entre un token y una palabra? ¶

Un token es un fragmento de texto que el modelo reconoce como unidad atómica, no necesariamente una palabra completa. Una palabra puede equivaler a uno, dos o más tokens según su frecuencia en el corpus de entrenamiento. Por ejemplo, “hello” es un token, pero “implementación” puede ser tres tokens en español (“imple”, “ment”, “ación”).

¿Cuántos tokens caben en un libro como Don Quijote? ¶

Don Quijote de la Mancha tiene aproximadamente 400.000 palabras, lo que equivale a unos 550.000-600.000 tokens en español usando el tokenizer de GPT-4o. Cabe sobrado en una ventana de contexto de 1 millón de tokens como las de Claude Opus 4.7 o GPT-5.5.

¿Qué es un system prompt y por qué importa? ¶

El system prompt es un mensaje especial con role “system” que va al principio del array de mensajes y solo lo ve el modelo, no el usuario final. Define el comportamiento global del asistente (idioma, tono, restricciones, formato) y el modelo está entrenado para darle más peso que a los mensajes del usuario. Las aplicaciones lo usan para configurar personalidad, reglas de seguridad y contexto persistente.

¿Qué es la ventana de contexto de un LLM? ¶

La ventana de contexto es el número máximo de tokens que un LLM puede procesar en una única petición, incluyendo system prompt, historial, ficheros, definiciones de tools y la respuesta generada. En 2026, los modelos frontier como Claude Opus 4.7, GPT-5.5 y Gemini 3.1 Pro tienen ventanas de 1 millón de tokens. Llama 4 Scout llega a 10 millones.

¿Por qué mi agente de IA empeora cuando la conversación es larga? ¶

Por el fenómeno conocido como “lost in the middle”: los LLMs prestan más atención a la información del principio y el final del contexto, y la del medio se diluye. El benchmark RULER de NVIDIA muestra que el contexto efectivo suele estar entre el 50% y el 65% de la capacidad anunciada. La solución práctica es abrir conversaciones nuevas con frecuencia o usar comandos de compactación como /compact en Claude Code.

¿Qué son las tools o function calls en un LLM? ¶

Las tools son interfaces declaradas en el system prompt mediante un nombre, una descripción y un esquema JSON de parámetros. El modelo no las ejecuta él: cuando decide usar una, devuelve un mensaje especial de tipo tool_use con los argumentos, tu aplicación ejecuta la acción y le devuelve el resultado como tool_result. Es el mecanismo que permite a un LLM leer ficheros, llamar APIs o ejecutar código.

¿Cuántas tools debería darle a un agente? ¶

Entre 6 y 12 tools como máximo. A partir de ahí, la tasa de aciertos en la selección de herramienta cae de forma notable. Si necesitas más capacidades, agrupa las tools en sub-agentes especializados que se carguen solo cuando hagan falta o usa Agent Skills para encapsular conocimiento de dominio.

¿Qué diferencia hay entre un agente y un workflow? ¶

Un workflow es una secuencia de pasos predefinidos orquestados por código, donde tú decides cuándo termina la ejecución. Un agente es un bucle donde el LLM decide qué tools llamar y cuándo parar, manteniendo control sobre cómo completa la tarea. Anthropic recomienda usar workflows siempre que el camino a la solución sea conocido, y reservar agentes para problemas donde la solución se descubre iterando.

¿Qué son los reasoning tokens? ¶

Los reasoning tokens son el “pensamiento” del modelo antes de generar la respuesta final, disponibles en modelos con razonamiento extendido como Claude con extended thinking, GPT-5 con reasoning effort o DeepSeek-R1. Aparecen como un bloque de tipo “reasoning” dentro del mensaje del assistant. Se facturan como output tokens y consumen ventana de contexto, pero mejoran la precisión en tareas complejas.

¿Qué es context engineering y en qué se diferencia de prompt engineering? ¶

Context engineering es la disciplina de decidir qué información meter en la ventana de contexto, en qué orden y con qué jerarquía, para maximizar el rendimiento del modelo. Prompt engineering se centra en cómo formular una instrucción concreta; context engineering opera a nivel de sistema: qué documentación incluir, cómo estructurar el historial, qué tools cargar, cuándo comprimir el contexto. En agentes complejos es la diferencia entre que funcione y que no.

Fuentes ¶

Anthropic. Building Effective Agents. Diciembre 2024.
Anthropic. Context windows documentation. Documentación oficial.
Stack Overflow. 2025 Developer Survey: AI. Julio 2025.
Liu et al. Lost in the Middle: How Language Models Use Long Contexts. Stanford, 2023.
Artificial Analysis. Claude Opus 4.7 model analysis.
Morph Labs. Claude Context Window (2026).
OpenAI. Tokenizer playground.
Petrov et al. Language Model Tokenizers Introduce Unfairness Between Languages. University of Oxford, 2023.

🧨 Última oprtunidad para recibir la dinamita que mereces sobre programación con IA el próximo domingo: Suscríbete gratis a Web Reactiva en https://webreactiva.com/newsletter

Conceptos clave de los modelos de lenguaje que todo programador debería entender

¿Qué es un token y por qué tu factura depende de él? ¶

¿Cómo se estructura una conversación con un LLM? ¶

¿Qué es la ventana de contexto y por qué se degrada? ¶

¿Qué son las tools y cómo funcionan por dentro? ¶

¿Qué diferencia hay entre un agente y un workflow? ¶

Comparativa rápida: workflow vs agente ¶

¿Cómo aplicas todo esto en tu día a día como developer? ¶

Lo que te llevas ¶

Preguntas frecuentes ¶

¿Cuál es la diferencia entre un token y una palabra? ¶

¿Cuántos tokens caben en un libro como Don Quijote? ¶

¿Qué es un system prompt y por qué importa? ¶

¿Qué es la ventana de contexto de un LLM? ¶

¿Por qué mi agente de IA empeora cuando la conversación es larga? ¶

¿Qué son las tools o function calls en un LLM? ¶

¿Cuántas tools debería darle a un agente? ¶

¿Qué diferencia hay entre un agente y un workflow? ¶

¿Qué son los reasoning tokens? ¶

¿Qué es context engineering y en qué se diferencia de prompt engineering? ¶

Fuentes ¶

12 recursos para developers cada domingo en tu bandeja de entrada