Dónde corre la inferencia decide tanto el coste y la latencia de trabajar con IA como el modelo que elijas. Los runtimes locales y cloud alternativos —Groq (inference engine ultra-rápido sobre LPU), Ollama (runner de modelos open-weight en local, ahora también en cloud) y Docker Model Runner (correr modelos como contenedores)— sacan la inferencia del monopolio de la nube del proveedor y abren tres patrones: local puro para privacidad y coste cero, cloud barato para open-weight (GLM, DeepSeek, Kimi, MiniMax) y despliegue on-prem con Docker. Para el developer, elegir runtime es también elegir el contrato de la API: el patrón «mandas mensajes, indicas modelo, recoges salida» es idéntico en Groq, OpenAI, Ollama o Gemini, así que migrar es sobre todo cambiar una base URL y un nombre de modelo.
Recomiéndame dónde correr la inferencia para <caso de uso> (local con Ollama, Groq en cloud, Docker on-prem o la nube del proveedor), comparando coste, latencia y privacidad, y dime qué cambia en mi código al migrar de uno a otro.
Fuentes en Web Reactiva
- Groq: qué es y cómo usar la API de inferencia más rápidapost2026-02-13
- Modelos de Ollama Cloud: Kimi K2.6 vs DeepSeek vs GLM-5.1post2026-04-30
- Tutorial: Cómo lanzar la IA con Docker Model Runnerpost2025-05-17
Sin Momentos: todas las fuentes son `post` (las huellas solo cubren audio/vídeo `wr`/`wrp`/`step`). La masterclass «Integrando IA con Groq» sí tiene chunk en huellas, pero habla del contrato de chat completions compartido entre proveedores (ver [[modelos-lenguaje-llm]]), no del runtime en sí; no se fuerza cita tangencial aquí.
Artículo creado por Daniel Primo con ayuda de la IA en base a lo compartido en el podcast, vídeos y textos de Web Reactiva.