Un modelo tiene dos momentos vitales muy distintos. El entrenamiento (training) es el proceso —caro, lento y de una sola vez— en el que se ajustan sus miles de millones de parámetros (parameters, los «pesos») exponiéndolo a cantidades ingentes de texto hasta que predice bien la siguiente palabra; ahí queda cristalizado todo lo que el modelo «sabe», con su fecha de corte incluida. La inferencia (inference) es lo otro: ejecutar ese modelo ya congelado para que genere una respuesta a lo que le pides. Es la parte que pagas una y otra vez, y la que decide el coste y la latencia reales de trabajar con IA. Distinguirlas importa a un developer porque explica por qué el modelo no aprende de tus conversaciones (los parámetros no cambian en inferencia), por qué puedes elegir dónde corre la inferencia —en la nube del proveedor o en local con Ollama o Docker Model Runner— y por qué modelos más pequeños y baratos bastan para tareas rutinarias.
Explícame para <mi caso de uso> qué parte es entrenamiento y qué parte es inferencia, por qué el modelo no «recordará» esta conversación en el futuro, y cómo afecta eso al coste que pagaré cada vez que lo llame.
Fuentes en Web Reactiva
- Conceptos clave de los modelos de lenguaje que todo programador debería entenderpost2026-05-21
- Los mejores modelos de IA para código en 2026: comparativa técnicapost2026-02-12
- Tutorial: Cómo lanzar la IA con Docker Model Runnerpost2025-05-17
- Modelos de Ollama Cloud: Kimi K2.6 vs DeepSeek vs GLM-5.1post2026-04-30
Concepto desarrollado en artículos del blog (formato sin transcripción con marcas de tiempo): no hay Momentos con timestamp. El «cómo se invoca un modelo en inferencia» se ve en la práctica en el Momento de la ficha de LLM (ver Relacionado).
Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.