Cada petición a un proveedor de LLM factura dos contadores distintos: tokens de entrada (lo que el harness manda al modelo — system prompt, contexto, historial, tool results) y tokens de salida (lo que el modelo genera). Los de salida son más caros porque cuestan más cómputo por token. La distinción explica por qué compactar el historial o usar prefix cache ahorra en el contador de entrada, mientras que limitar el esfuerzo ahorra en el de salida. Entender la factura token a token es la base del ahorro real con IA.
Desglósame el gasto de tokens de <esta petición o flujo> en entrada y salida: qué infla cada contador, y dame acciones separadas para bajar entrada (compactar, prefix cache) y salida (menos esfuerzo, respuestas más cortas).
Fuentes en Web Reactiva
- Buenas prácticas contra los tokens cada vez más caroswr2026-05-10
- Tokenmaxxing: 7 formas de inflar tokens y 7 de usarlos con criteriopost2026-04-30
- Headroom: cómo recortar hasta un 95% de tokens en tus agentes de IApost2026-03-20
- WRP 309. Estado de la IA para programadores, ¿te van a quitar el trabajo?Premium2024-08-29
- Integrando IA en proyectos web: Taller con GroqPremium2024-11-22
- Cómo gastar menos en GitHub Copilot eligiendo el modelo de IA correctopost2026-04-28
Momentos
distinción entre tokens de entrada y de salida, y la memoria de contexto · memoria de contexto, tokens de entrada, tokens de salida, api de servicios
buenas prácticas contra el precio creciente de los tokens · gpt 5.5, modelos de copilot, modelo sonnet
formato de mensajes y tokens mandados al proveedor · grok chat completions, librería ollama, librería gemini
Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.