Un token es la unidad mínima de texto que un modelo tokeniza (no equivale a una palabra: el español suele partirse en más tokens que el inglés por su morfología, un sesgo lingüístico que penaliza a quienes escribimos en castellano). La facturación de cualquier LLM se factura por separado en tokens de entrada (input, lo que envías) y de salida (output, lo que genera), y el coste por output es típicamente varias veces el de input. Sobre ese presupuesto se monta la ventana de contexto: el número máximo de tokens que el modelo puede mantener simultáneamente en memoria por petición. Cuanto más se llena —mensajes previos, herramientas, resultados de MCP, ficheros adjuntos— peor razona: pasada ~80% de ocupación aparecen alucinaciones, olvidos y cambios de idioma o de stack. Por eso la economía del LLM ya no se gestiona solo con prompts, sino con context engineering: cachear respuestas, recortar contexto irrelevante, repartir trabajo entre subagentes, fijar quality gates deterministas (linters, tests) y delegar lo rutinario a modelos open-source más baratos; herramientas como Headroom (SmartCrusher, CacheAligner, ContentRouter, IntelligentContext) prometen recortar hasta un 95% de tokens envolviendo al agente en un proxy que filtra y reutiliza contexto antes de llegar al modelo.
Estima el consumo de tokens de <esta tarea o prompt>: cuántos de entrada y de salida, qué parte del contexto es prescindible, y dame 3 recortes concretos para bajar el coste sin perder la información que el modelo necesita.
Fuentes en Web Reactiva
- Conceptos clave de los modelos de lenguaje que todo programador debería entenderpost2026-05-21
- Buenas prácticas contra los tokens cada vez más caroswr2026-05-10
- Headroom: cómo recortar hasta un 95% de tokens en tus agentes de IApost2026-06-06
- WRP 309. Estado de la IA para programadores, ¿te van a quitar el trabajo?Premium2024-08-29
- Cómo empezar con la IA para crear proyectos de softwarewr2026-06-07
- 11 casos de uso de la IA para developersPremium2025-12-21
- WRP 319: Probamos Claude AI, Supermaven y otra herramienta que no…Premium2024-11-04
Momentos
la ventana de contexto se consume con cada mensaje, tool y resultado; al pasar del 80% llegan alucinaciones, olvidos y cambios de idioma o stack · topics: ventana de contexto, límite de tokens, autocompactación
enchufar un MCP ya cuesta ~7% del contexto solo para que el modelo sepa que existe; varios MCP a la vez vacían la ventana y disparan alucinaciones · topics: MCPs, tokens de contexto, ventana de contexto
SuperMaven ofrece un millón de tokens (4M de caracteres) de ventana de contexto para autocompletado, suficiente para meter un framework entero · topics: ventana de contexto, autocompletado de IA, GitHub Copilot
Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.