Headroom: cómo recortar hasta un 95% de tokens en tus agentes de IA

Le pides a tu agente que investigue por qué falla un despliegue.

Lanza un par de herramientas, lee 200 líneas de logs, hace un grep en medio repo y se trae 500 resultados de búsqueda. Cuando quieres darte
cuenta, esa conversación pesa 100.000 tokens.

Y aquí viene lo doloroso: el 90% de eso es ruido.

Líneas de log idénticas. JSON repetido. Resultados que el modelo no va a mirar jamás. Pagas por todo, lo procesa todo y encima va más lento.

Headroom ataca justo ese problema. No te pide prompts más cortos ni cambiar a un modelo más barato. Comprime lo que tu agente lee antes de
que llegue al modelo, y lo hace de forma reversible: si el modelo necesita el original, lo recupera.

En este post vamos a ver, con las manos en el teclado:

Por qué el ahorro no está en tus prompts sino en lo que el agente lee
Las tres maneras de meterlo en tu flujo, de la más cómoda a la más manual
Qué comprime de verdad, qué porcentaje ahorras y cómo está justificado
Si esto afecta a tu seguridad y a tus datos
Cómo se compara con las alternativas que ya existen

El ahorro no está donde crees que está ¶

El ahorro de tokens no viene de acortar tus prompts. Viene de comprimir las salidas de las herramientas que tu agente lee.

La intuición de casi todo el mundo es la contraria: “si quiero gastar menos, escribo prompts más cortos”. No es mentira —de hecho hay 25 técnicas para gastar menos tokens en Claude Code que merecen su propio repaso—, pero es donde menos chicha hay.

En una sesión de agente real, tu prompt es un suspiro.

Lo que engorda el contexto son las salidas de las herramientas: el resultado de un read_file, la respuesta de una API, las filas de una
consulta a base de datos, el RAG que devuelve veinte chunks para que el modelo se quede con dos.

Headroom se planta entre tu aplicación y el proveedor (Anthropic, OpenAI, Bedrock, lo que uses). Comprime todo eso antes de que cruce la
frontera.

Según el repositorio oficial de Headroom, el rango de reducción va del 60 al 95% de tokens sin tocar la respuesta del modelo.

🔑 La idea central de Headroom: no comprime lo que tú escribes, comprime lo que tu agente lee. Y ahí está casi todo el desperdicio.

Piénsalo como el editor de un periódico.

El becario trae el artículo con tres párrafos que repiten lo mismo, una tabla que nadie va a leer entera y dos citas idénticas. El editor no
reescribe la noticia: tacha lo redundante, deja lo que aporta y se asegura de que el error grave del titular sigue ahí, bien visible.

Eso es Headroom con tus tool outputs.

Y conviene decirlo ya, porque marca la diferencia: el contexto no se resume con un modelo (eso costaría otra llamada y más latencia). Se
comprime con métodos estadísticos y deterministas, en local. Tus datos no salen de tu máquina.

Qué pasa por dentro cuando llega un mensaje ¶

Cuando un mensaje entra en Headroom recorre una tubería de tres etapas. No tienes que configurar nada, pero entenderla te dice qué esperar. Si ya conoces el concepto de harness, la capa que envuelve al modelo, esto te sonará: Headroom es una pieza más de ese envoltorio, especializada en recortar grasa.

CacheAligner: extrae el contenido dinámico de tu system prompt (la fecha de hoy, un ID de sesión, un token) y lo manda al final,
para que el prefijo del mensaje sea idéntico en cada llamada.
ContentRouter: mira cada salida de herramienta, detecta de qué tipo es (JSON, código, logs, diffs, HTML, texto) y la manda al compresor
adecuado.
IntelligentContext: cuando la conversación supera la ventana del modelo, puntúa cada mensaje por importancia y deja caer los de menos
valor.

Esa primera etapa parece un detalle menor y es de las que más rinden.

Los proveedores descuentan los tokens que ya tienen en caché. Según la documentación de Headroom, Anthropic cobra un 90% menos por la lectura
cacheada, OpenAI un 50% y Google un 75%.

Pero esa caché solo acierta si el prefijo de tus mensajes es idéntico llamada tras llamada. Si tu system prompt lleva la fecha de hoy
incrustada, cada día rompes la caché y vuelves a pagar el prefijo entero.

CacheAligner lo arregla moviendo lo que cambia al final. El ahorro se acumula: SmartCrusher recorta el bruto de tokens y, de los que quedan,
buena parte llega con descuento de caché.

El router reparte el trabajo entre compresores especializados:

SmartCrusher se encarga de los arrays JSON. Analiza los elementos con estadística (varianza, valores únicos, puntos de cambio) y
conserva una muestra representativa. Aquí está el grueso del ahorro.
CodeCompressor entiende código vía tree-sitter: conserva imports, firmas y tipos, y colapsa los cuerpos de función.
Kompress-base, un modelo propio publicado en Hugging Face, se ocupa del texto en prosa.

👉 ¿Y cómo decide SmartCrusher qué tira y qué conserva?

SmartCrusher no recorta a lo bruto ¶

SmartCrusher no trunca a ciegas: puntúa cada elemento de un array y preserva siempre lo crítico, aunque se salga del presupuesto de tokens.

Cortar un array de 1.000 elementos por la mitad es fácil.

El problema es que el error crítico que el modelo necesitaba estaba en la posición 678, y acabas de tirarlo a la basura.

SmartCrusher puntúa cada elemento en cinco dimensiones y conserva lo que importa:

Los primeros y últimos elementos, para contexto y paginación
Los elementos con errores: nunca se eliminan
Las anomalías estadísticas, valores que se salen más de dos desviaciones típicas
Los elementos que encajan con la consulta del usuario, vía scoring de relevancia
Los puntos de cambio, transiciones bruscas en los datos

El número de elementos que sobreviven no es fijo. Lo calcula con el algoritmo Kneedle sobre la cobertura de información: busca el punto donde
añadir más elementos ya no aporta nada nuevo.

🛡️ Los elementos de error se conservan al 100%, aunque se salgan del presupuesto. Si tu agente busca un fallo entre 300 entradas de log, el
FATAL enterrado en la posición 67 sigue ahí después de comprimir.

Esto no es teoría.

En uno de los benchmarks del repositorio, 100 entradas de log con un error crítico en la posición 67 pasaron de 10.144 a 1.260 tokens (un
87,6% menos). El modelo acertó las cuatro preguntas sobre ese error.

La compresión fue agresiva. La información que hacía falta, intacta.

Si disfrutas entendiendo cómo funcionan por dentro estas herramientas, cada domingo compartimos experiencias y 12 recursos seleccionados sobre IA aplicada al desarrollo. Ya somos +6.700 developers.

Apúntate gratis →

Las tres formas de meterlo en tu flujo ¶

Hay tres maneras de usar Headroom, de la más cómoda a la más manual. Empieza por la primera.

Opción 1: envolver tu agente (`wrap`) ¶

Un solo comando arranca el proxy y lanza tu agente ya configurado por detrás. Es el punto de partida recomendado.

# Envuelve tu agente de cabecera en un comando
headroom wrap claude
headroom wrap codex
headroom wrap cursor
headroom wrap aider
headroom wrap copilot

No tienes que tocar variables de entorno ni acordarte de levantar nada aparte. Lo lanzas y a trabajar.

Y si usas clientes MCP (Claude Code, Cursor y compañía), Headroom expone tres herramientas (headroom_compress, headroom_retrieve,
headroom_stats) que el modelo invoca cuando le conviene:

# Registra el servidor MCP en tu agente
headroom mcp install

De la pieza al sistema

Headroom es una capa de tu agente. Aquí colocas las seis

Vas a poder situar compresión, tools, guardarraíles, memoria, skills y MCP en su capa — y orquestar varios agentes sin que se descontrolen en producción.

Destripar la arquitectura →

6 niveles de arquitectura, en directo

Opción 2: el proxy (cero cambios de código) ¶

Levantas un proxy local y apuntas tu cliente a él. No tocas ni una línea de tu aplicación.

# Instala con el extra de proxy y arranca el servidor
pip install "headroom-ai[proxy]"
headroom proxy --port 8787

# Apunta Claude Code al proxy
ANTHROPIC_BASE_URL=http://localhost:8787 claude

# O cualquier cliente compatible con OpenAI
OPENAI_BASE_URL=http://localhost:8787/v1 tu-app

Cuando quieras ver el ahorro, lo consultas en caliente:

# Estadísticas acumuladas del proxy
curl http://localhost:8787/stats

Opción 3: la librería (control total) ¶

Si construyes tu propia aplicación y quieres decidir qué comprimes y cuándo, llamas a compress() directo. Le pasas los mensajes y te
devuelve la versión optimizada más las métricas.

from headroom import compress

# Comprime antes de enviar al modelo
result = compress(messages, model="gpt-4o")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=result.messages,  # los mensajes ya comprimidos
)

print(f"Ahorrados {result.tokens_saved} tokens ({result.compression_ratio:.0%})")

En TypeScript la idea es la misma, con la salvedad de que el SDK necesita el proxy levantado por detrás (es quien ejecuta la tubería de
compresión, escrita en Python):

import { compress } from "headroom-ai";

// El SDK habla con el proxy local en http://localhost:8787
const result = await compress(messages, { model: "gpt-4o" });

💡 Si solo vas a probar una cosa hoy: headroom wrap claude y trabaja una hora normal. Luego mira /stats. El número te lo dirá todo sin
que toques tu código.

Hay además adaptadores para LangChain, Agno, Strands, LiteLLM, el Vercel AI SDK y los SDK oficiales de OpenAI y Anthropic. Si ya tienes un
stack montado, lo más probable es que haya un enganche de una línea esperándote.

Qué se comprime bien y qué pasa intacto ¶

Headroom no comprime todo por igual, y eso es bueno: comprimir lo que no debe sería peor que no comprimir nada.

Esta es la parte honesta, la que casi nadie cuenta.

Tipo de contenido	Compresión	Por qué
Arrays JSON (salidas de herramientas)	Excelente	Muestreo estadístico, conserva errores y anomalías
Logs de build/test	Excelente	Mantiene fallos y traces, tira el ruido que pasa
Resultados de búsqueda (grep)	Limitada / nula	Ya son compactos, comprimirlos no aporta
Código fuente	Nula (pasa intacto)	Casi siempre lo quieres entero para trabajar con él
Texto plano (docs, artículos)	Buena	Solo ahorro de coste, añade algo de latencia
Imágenes	Nula	Coste fijo de tokens, no se comprime
System prompts	Solo se reordena	Se preserva para que la caché del proveedor acierte

Fíjate en la fila del código.

Headroom trae un compresor de código por AST de ocho lenguajes, pero por defecto lo deja pasar intacto. Y es una decisión deliberada, no
un olvido.

Si has pedido al agente que lea un fichero, casi seguro es porque quieres trabajar con él. Colapsar los cuerpos de las funciones te quitaría
justo lo que necesitas.

El ahorro en código viene de otro sitio: de descartar mensajes antiguos que ya no pintan nada, no de mutilar el que tienes delante.

⚠️ No esperes magia universal. Si tu sesión son cuatro mensajes cortos de ida y vuelta, Headroom apenas tiene de dónde recortar. El ahorro
brutal aparece en sesiones largas y llenas de herramientas.

Todos los compresores comparten una regla de oro: si algo falla, devuelven el contenido original sin tocar.

Un JSON malformado pasa tal cual. Un parseo de código que peta cae al original. Una compresión que dejaría el resultado más grande que el de
partida se descarta.

Tus llamadas al modelo nunca se rompen por culpa de Headroom.

CCR: comprimir sin tirar nada a la basura ¶

CCR (Compress-Cache-Retrieve) hace que la compresión sea reversible: el original nunca se borra, se guarda en local y el modelo lo recupera si
lo necesita.

Aquí está la pieza que separa a Headroom de un simple “trunca y reza”.

La compresión clásica te mete en un dilema feo. O comprimes agresivo y arriesgas a perder algo, o comprimes conservador y dejas casi todo el
ahorro sobre la mesa.

CCR rompe ese dilema.

Cuando SmartCrusher reduce un array de 1.000 elementos a 20, el original no se borra: se guarda en una caché local indexada por hash. En la
salida comprimida queda una marca:

[1000 items compressed to 20. Retrieve more: hash=abc123]

Y Headroom inyecta en el contexto una herramienta, headroom_retrieve, que el modelo invoca cuando los 20 elementos no le bastan:

{
  "name": "headroom_retrieve",
  "parameters": {
    "hash": "abc123",
    "query": "authentication errors"
  }
}

Lo elegante: el modelo no tiene por qué pedir el original entero.

Con el parámetro query busca dentro de los datos comprimidos (un BM25 sobre los elementos cacheados) y se trae solo el trozo que le
interesa. Y todo esto pasa de forma transparente: tu aplicación nunca ve esas llamadas.

🔑 Comprime agresivo, recupera bajo demanda. CCR te da el ahorro de la compresión brutal con el riesgo de pérdida de la conservadora. Los
dos lados buenos a la vez.

Cuánto ahorras de verdad, y cómo está justificado ¶

Headroom reduce entre un 60 y un 95% de tokens en cargas de agente pesadas, según los benchmarks del repositorio. En sesiones cortas de
conversación el ahorro mediano cae a un 4,8%. El número que verás depende de tu caso de uso.

Vamos con los datos, pero con la verdad por delante.

Estos son cuatro escenarios de agente reales, según los benchmarks publicados por el proyecto:

Carga de trabajo	Antes	Después	Ahorro
Búsqueda en código (100 resultados)	17.765	1.408	92%
Depuración de incidente SRE	65.694	5.118	92%
Triaje de issues en GitHub	54.174	14.761	73%
Exploración de un código base	78.502	41.254	47%

Gasto de tokens antes y después de headroom

¿Y la precisión? Es la pregunta del millón, porque comprimir y perder respuestas correctas no sirve de nada.

Según las evaluaciones del propio proyecto sobre benchmarks estándar, GSM8K se mantiene clavado (variación de ±0,000), TruthfulQA sube un poco
(+0,030) y en SQuAD v2 conserva un 97% de acierto con un 19% de compresión. Quitar ruido, a veces, ayuda al modelo a centrarse.

Ahora la letra pequeña.

La telemetría de producción del proyecto (más de 50.000 sesiones de proxy) dice que la compresión mediana es modesta, en torno al 4,8%.

¿Contradicción? Para nada.

Muchas peticiones reales son turnos cortos de conversación, donde no hay nada que recortar. El ahorro del 40-80% aparece en las sesiones
pesadas de herramientas, que son precisamente las que te disparan la factura.

💡 La lectura correcta: Headroom no te baja la factura un 80% en todo. Te la desploma justo en las sesiones que más cuestan. La media
engaña; mira tu caso de uso.

Por cierto, la latencia.

El proxy añade una mediana de 52 ms por petición, según la telemetría del proyecto. Comparado con los 2 a 10 segundos que tarda el modelo en
responder, es ruido. Y al enviar menos tokens, el modelo procesa más rápido: el tiempo neto suele salir a favor.

La factura de la IA es una conversación que tenemos cada semana con los +6.700 developers de la newsletter: qué herramientas merecen la pena y qué estamos aprendiendo al adoptarlas. Gratis, cada domingo, desde 2018.

Quiero esa dinamita 🧨

¿Esto afecta a tu seguridad? ¶

No, tus datos no salen de tu máquina salvo que tú lo decidas. Headroom es de código abierto (licencia Apache 2.0), se ejecuta en local y no
envía tus prompts a ningún sitio por defecto.

Es la primera pregunta sensata cuando algo se mete en mitad de tus llamadas al modelo. Vamos por partes.

¿Se van mis datos fuera?

No. La compresión pasa en tu equipo. La documentación del proyecto lo resume así: “your data stays here”, según la página de arquitectura de
Headroom.

La única salida es una telemetría anónima y opcional, que solo recoge conteos de tokens, ratios de compresión y estimaciones de coste. Nada de
prompts, contenido ni datos personales, según la documentación del proyecto. Y la apagas con una variable:

# Desactiva toda la telemetría anónima
HEADROOM_TELEMETRY=off

# O directamente prohíbe cualquier escritura en disco
HEADROOM_STATELESS=true

¿Y el proveedor (Anthropic, OpenAI) puede detectar que hay algo en medio modificando el tráfico?

Aquí toca matizar, porque depende de cómo te autentiques.

Si usas una API key de pago, el proxy reescribe el contenido de los mensajes de entrada, pero no oculta nada: no hay comportamiento
“fantasma”.

Si usas una suscripción tipo Claude Pro o Max, Headroom está diseñado para parecer idéntico al cliente nativo: conserva tu User-Agent, no
inyecta cabeceras propias y no toca el accept-encoding. Según la documentación de modos de autenticación del proyecto, el objetivo es que el
proveedor no distinga la petición de la del agente original.

🛡️ Traducido: con suscripción, por diseño, el proveedor no detecta que Headroom está en medio. Eso te protege la cuota, pero conviene que
revises los términos de tu proveedor antes de enrutar tráfico de suscripción por un proxy. La decisión es tuya, y mejor informada.

Como es código abierto, puedes auditar exactamente qué hace antes de confiarle todo lo que tu agente lee. Esa es la diferencia entre una caja
negra y una herramienta que enseña sus costuras.

Cómo se compara con las alternativas ¶

Headroom se diferencia de las alternativas en cuatro cosas: se ejecuta en local, cubre todos los tipos de contenido, se integra con cualquier
framework y es reversible.

No está solo en esto de recortar contexto. Hay otras herramientas, cada una con su enfoque.

Herramienta	Alcance	Dónde se ejecuta	Reversible
Headroom	Todo el contexto: tools, RAG, logs, ficheros, historial	Local	Sí
RTK	Salidas de comandos de CLI	Local	No
lean-ctx	Comandos CLI, herramientas MCP, reglas del editor	Local	No
Compresr / Token Co.	Texto enviado a su API	En su nube	No
Compactación nativa de OpenAI	Historial de conversación	En el proveedor	No

La diferencia gorda es el alcance.

RTK y lean-ctx se centran en la salida de comandos de terminal, lo cual está muy bien pero es una parte del problema. Las soluciones alojadas
(Compresr, Token Co.) te mandan el texto a su API: vuelves a sacar tus datos fuera.

Y la compactación nativa del proveedor solo toca el historial de conversación, no las salidas de herramientas, que es donde más grasa hay.

Hay otro ángulo que esta tabla no recoge: lo que tu agente escribe. Ahí juega Caveman, la skill que recorta hasta un 75% los tokens de salida. No compiten: Headroom comprime lo que entra, Caveman lo que sale. Puedes usar los dos a la vez.

💡 Detalle elegante: Headroom incluye el binario de RTK para reescribir salidas de shell y comprime todo lo que sale de él. En vez de
competir, lo suma a su tubería.

Donde Headroom gana es en cubrir cada tipo de contenido con un compresor especializado, hacerlo en local y, sobre todo, ser reversible vía
CCR. Lo demás, o se queda en un nicho, o te obliga a sacar los datos de casa, o pierde lo que tira.

Preguntas frecuentes ¶

¿Qué es Headroom?
Headroom es una capa de compresión de contexto de código abierto que se sitúa entre tu aplicación de IA y el proveedor del modelo. Comprime
salidas de herramientas, logs, ficheros y resultados de RAG antes de que lleguen al modelo, reduciendo entre un 60 y un 95% de tokens según
los benchmarks del proyecto.

¿Cuántos tokens ahorra Headroom de verdad?
En cargas de agente pesadas, entre un 60 y un 95% según los benchmarks del repositorio. En sesiones cortas de conversación, el ahorro mediano
cae a un 4,8% según la telemetría de producción. El número real depende de cuántas salidas de herramientas grandes maneje tu sesión.

¿Headroom pierde información al comprimir?
No de forma irreversible. Usa una arquitectura llamada CCR (Compress-Cache-Retrieve) que guarda el original en local: el modelo puede
recuperar el dato completo con la herramienta headroom_retrieve cuando lo necesita. Además, SmartCrusher conserva al 100% los elementos con
errores y las anomalías.

¿Mis datos salen de mi máquina con Headroom?
No por defecto. La compresión pasa en local y los prompts no se envían a ningún sitio. La única salida es una telemetría anónima y opcional
(solo conteos de tokens y ratios) que desactivas con HEADROOM_TELEMETRY=off.

¿Cómo instalo Headroom?
Con pip install "headroom-ai[all]" en Python (requiere Python 3.10 o superior) o npm install headroom-ai en Node. La forma más rápida de
probarlo es envolver tu agente con headroom wrap claude.

¿Funciona con Claude Code y Cursor?
Sí. Puedes envolverlos con headroom wrap claude o headroom wrap cursor, o apuntar la variable de entorno del cliente al proxy local.
También expone un servidor MCP con las herramientas headroom_compress, headroom_retrieve y headroom_stats.

¿Comprime el código fuente?
Por defecto no: el código pasa intacto. Es una decisión deliberada, porque cuando pides leer un fichero normalmente quieres trabajar con él
entero. El ahorro en sesiones de código viene de descartar mensajes antiguos, no de mutilar el actual.

¿Cuánta latencia añade Headroom?
Una mediana de 52 ms por petición según la telemetría del proyecto, frente a los 2-10 segundos que tarda el modelo en responder. Como envía
menos tokens, el tiempo neto suele salir a favor en cargas pesadas.

¿Headroom es gratis?
Sí, es de código abierto con licencia Apache 2.0. Puedes auditar su funcionamiento y desplegarlo en tu propia infraestructura sin coste de
licencia.

¿Con qué proveedores y frameworks funciona?
Con Anthropic, OpenAI, Bedrock, Vertex AI y más de 100 modelos vía LiteLLM. Tiene adaptadores para LangChain, Agno, Strands, el Vercel AI SDK
y los SDK oficiales de OpenAI y Anthropic.

Tu siguiente media hora ¶

La teoría está muy bien, pero esto se entiende con el /stats delante.

Envuelve tu agente con headroom wrap. Trabaja media hora como cualquier otro día: pídele que investigue un bug, que lea unos ficheros, que
rebusque en los logs. Y luego mira las estadísticas.

Si tu número se parece al 4,8% mediano, tranquilo: estás en sesiones cortas y no es tu caso.

Pero si te dedicas a tareas pesadas de agente, ese número te va a hacer levantar una ceja.

Y la pregunta de verdad no es cuánto comprime Headroom.

Es otra: ¿cuántos tokens llevas pagando por ruido que tu modelo nunca iba a mirar?

Fuentes ¶

🧨 Última oprtunidad para recibir la dinamita que mereces sobre programación con IA el próximo domingo: Suscríbete gratis a Web Reactiva en https://webreactiva.com/newsletter