La atención (attention) es el mecanismo de un LLM que reparte la influencia de cada token entre los demás del contexto: cada token dispone de un presupuesto finito de atención que se reparte entre más competidores a medida que la sesión crece. Con más tokens en juego, la señal sobre relaciones significativas se diluye y el modelo se vuelve más flojo y olvidadizo — la «dumb zone» frente a la «smart zone» inicial. Por eso contextos enormes no se traducen en calidad enorme: el budget por token no crece con la ventana, y compactar para cargar solo lo relevante es la forma de contrarrestar la degradación de atención.
Explícame cómo afecta la atención del modelo a <mi tarea con contexto largo>: por qué al crecer la sesión el modelo se vuelve olvidadizo, qué parte del contexto está en la «dumb zone», y qué compactar o mover al principio para no perder señal.
Fuentes en Web Reactiva
- Buenas prácticas contra los tokens cada vez más caroswr2026-05-10
- Conceptos clave de los modelos de lenguaje que todo programador debería entenderpost2026-04-15
- Tokenmaxxing: 7 formas de inflar tokens y 7 de usarlos con criteriopost2026-04-30
- Headroom: cómo recortar hasta un 95% de tokens en tus agentes de IApost2026-03-20
- Arquitectura de agentes de IA: componentes, capas y frameworks para developerspost2026-03-09
Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.