Newsletter para devsNewsletter con 12 recursos para devs cada domingoEntra Apúntate

Prefix cache

El prefix cache es el almacén del lado del proveedor que permite saltarse el reproceso de un prefijo compartido entre peticiones consecutivas, facturando esos tokens a una tarifa mucho menor. Si el system prompt y el inicio del contexto son estables a lo largo de la sesión, el caché golpea y el coste de entrada cae. Por eso mudar el system prompt a mitad de sesión o reordenar el contexto invalida el caché y encarece. Es la palanca de ahorro más invisible y la que más interactúa con el diseño del harness.

Prompt para tu agente

Ayúdame a aprovechar el prefix cache en <mi agente>: qué poner al principio del
contexto para que sea estable (system prompt, reglas), qué NO reordenar a mitad de
sesión, y cómo estimar el ahorro en tokens de entrada si el caché golpea.

Fuentes en Web Reactiva

Buenas prácticas contra los tokens cada vez más caroswr2026-05-10
Tokenmaxxing: 7 formas de inflar tokens y 7 de usarlos con criteriopost2026-04-30
Headroom: cómo recortar hasta un 95% de tokens en tus agentes de IApost2026-03-20
Cómo ahorrar tokens en Claude Codepost2026-01-22
Ponytail, la skill para ahorrar tokens como si fueras seniorpost2026-02-18
Caveman: la skill open source que recorta hasta un 75% los tokens de salidapost2026-03-05

Momentos

buenas prácticas de coste contra tokens caros · gpt 5.5, modelos de copilot, modelo sonnet
01:22:31Buenas prácticas contra los tokens caros

Compartir en X Compartir en LinkedIn Compartir por email

Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.

12 recursos para developers cada domingo en tu bandeja de entrada

Además de una skill práctica bien explicada, trucos para mejorar tu futuro profesional y una pizquita de humor útil para el resto de la semana. Gratis.