Newsletter para devsEntra

Runtimes y modelos locales: Groq, Ollama, Docker Model Runner

Dónde corre la inferencia decide tanto el coste y la latencia de trabajar con IA como el modelo que elijas. Los runtimes locales y cloud alternativosGroq (inference engine ultra-rápido sobre LPU), Ollama (runner de modelos open-weight en local, ahora también en cloud) y Docker Model Runner (correr modelos como contenedores)— sacan la inferencia del monopolio de la nube del proveedor y abren tres patrones: local puro para privacidad y coste cero, cloud barato para open-weight (GLM, DeepSeek, Kimi, MiniMax) y despliegue on-prem con Docker. Para el developer, elegir runtime es también elegir el contrato de la API: el patrón «mandas mensajes, indicas modelo, recoges salida» es idéntico en Groq, OpenAI, Ollama o Gemini, así que migrar es sobre todo cambiar una base URL y un nombre de modelo.

Prompt para tu agente
Recomiéndame dónde correr la inferencia para <caso de uso> (local con Ollama,
Groq en cloud, Docker on-prem o la nube del proveedor), comparando coste,
latencia y privacidad, y dime qué cambia en mi código al migrar de uno a otro.

Fuentes en Web Reactiva

Sin Momentos: todas las fuentes son `post` (las huellas solo cubren audio/vídeo `wr`/`wrp`/`step`). La masterclass «Integrando IA con Groq» sí tiene chunk en huellas, pero habla del contrato de chat completions compartido entre proveedores (ver [[modelos-lenguaje-llm]]), no del runtime en sí; no se fuerza cita tangencial aquí.

Daniel Primo

Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.

12 recursos para developers cada domingo en tu bandeja de entrada

Además de una skill práctica bien explicada, trucos para mejorar tu futuro profesional y una pizquita de humor útil para el resto de la semana. Gratis.