El prefix cache es el almacén del lado del proveedor que permite saltarse el reproceso de un prefijo compartido entre peticiones consecutivas, facturando esos tokens a una tarifa mucho menor. Si el system prompt y el inicio del contexto son estables a lo largo de la sesión, el caché golpea y el coste de entrada cae. Por eso mudar el system prompt a mitad de sesión o reordenar el contexto invalida el caché y encarece. Es la palanca de ahorro más invisible y la que más interactúa con el diseño del harness.
Ayúdame a aprovechar el prefix cache en <mi agente>: qué poner al principio del contexto para que sea estable (system prompt, reglas), qué NO reordenar a mitad de sesión, y cómo estimar el ahorro en tokens de entrada si el caché golpea.
Fuentes en Web Reactiva
- Buenas prácticas contra los tokens cada vez más caroswr2026-05-10
- Tokenmaxxing: 7 formas de inflar tokens y 7 de usarlos con criteriopost2026-04-30
- Headroom: cómo recortar hasta un 95% de tokens en tus agentes de IApost2026-03-20
- Cómo ahorrar tokens en Claude Codepost2026-01-22
- Ponytail, la skill para ahorrar tokens como si fueras seniorpost2026-02-18
- Caveman: la skill open source que recorta hasta un 75% los tokens de salidapost2026-03-05
Momentos
buenas prácticas de coste contra tokens caros · gpt 5.5, modelos de copilot, modelo sonnet
Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.