+250 skills, dinamita para tu productividad 🧨Explorar →

Sakana Fugu: qué es y cómo funciona el orquestador de IA

La frase que ha hecho viral el lanzamiento es esta: rendimiento de modelo frontera sin el riesgo de los export controls.

Suena a titular de feria. Pero detrás hay una idea técnica que merece que te sientes a mirarla con calma, porque cambia la pregunta de fondo. Ya no es “¿qué modelo uso?” —esa pelea la tengo cubierta en la comparativa de los mejores modelos para programar—. La pregunta de Fugu es otra: “¿y si no eliges modelo y dejas que un coordinador entrenado lo elija por ti, turno a turno?”.

Eso es Sakana Fugu. Y antes de que saques la cartera o lo descartes como “otro router con ínfulas”, conviene separar lo que de verdad trae de lo que es marketing con kimono.

Esto es lo que vas a encontrar aquí:

  • Qué es Fugu en realidad y por qué insisten en venderlo como un modelo y no como un grafo de agentes.
  • Cómo funciona por dentro, con la investigación que lo sostiene (Trinity y Conductor).
  • La diferencia entre Fugu y Fugu Ultra, y cuándo tiene sentido cada uno.
  • Cómo se integra (spoiler: API compatible con OpenAI, así que casi no tocas tu código).
  • Las pegas que no salen en la diapositiva: la caja negra, el coste, la latencia y un detalle que te va a doler si programas desde España.

Lo voy a mirar con la misma cautela con la que disequé los benchmarks de GLM-5.2: los números del fabricante se leen, pero no se firman. Vamos al lío.

Sakana Fugu es un orquestador vendido como un único modelo

Lo primero, sin rodeos: Sakana Fugu es un sistema multiagente empaquetado como si fuera un solo modelo. Tú llamas a un endpoint compatible con OpenAI y Fugu decide por dentro si responde de forma directa, si enruta tu petición a un modelo concreto o si monta una colaboración entre varios modelos especialistas. Sakana lo describe como un sistema multiagente que se comporta como un único modelo, accesible a través de una sola API compatible con OpenAI.

La tentación es reducirlo a “esto es OpenRouter con otro nombre”. Y no. Un gateway clásico enruta una petición: si es código, al modelo A; si es texto, al modelo B. Fugu va un paso más allá. Según Sakana, Fugu “aprende a ensamblar agentes de un pool de forma dinámica y a coordinarlos mediante patrones de colaboración no obvios pero muy eficientes”, en lugar de apoyarse en roles o flujos de trabajo diseñados a mano.

La distinción que mejor lo resume circula por los blogs estos días: un gateway enruta una petición; Fugu elige un proceso. No es lo mismo decidir “esto va a Claude” que decidir “que un modelo derive la parte matemática, otro revise la seguridad y un tercero sintetice y resuelva los desacuerdos”.

Si esto te suena, es porque no es un concepto nuevo en Web Reactiva. Ya he escrito sobre Agent Orchestrator de Composio, donde el propio orquestador es un agente de IA que lee tu backlog y reparte tareas, y sobre Oh My OpenCode, que delega cada tarea al modelo más adecuado (Opus para backend, Gemini para frontend, GPT para revisión). La novedad de Fugu no es la idea. Es que la vende como una capacidad del modelo, no como un montaje que te toca cablear tú con cuatro if y mucha fe.

🔑 La frase para llevarte a casa: con Fugu no diseñas el grafo de agentes. Lo decide él. Tú mandas una petición a un endpoint y recibes una sola respuesta, como si hubiera contestado un único modelo. El andamiaje no lo ves. Ahí está la magia y, como veremos, también la trampa.

Cómo funciona por dentro: Trinity y Conductor

La base técnica no se la han sacado de la manga. Fugu se apoya en dos papers presentados en ICLR 2026: Trinity y Conductor, que muestran cómo un sistema puede aprender a ensamblar, enrutar y coordinar agentes expertos para cada tarea en lugar de depender de flujos diseñados a mano.

Te lo traduzco a algo masticable.

Trinity usa un coordinador pequeño que, en varios turnos, selecciona un modelo y le asigna uno de tres roles: pensador (Thinker), trabajador (Worker) o verificador (Verifier). El ciclo termina cuando el verificador acepta la solución o cuando se agota el presupuesto de turnos. Es, si lo piensas, el clásico planifica → ejecuta → verifica llevado a la coordinación entre modelos.

Conductor sube la apuesta. Es un modelo de unos 7.000 millones de parámetros entrenado con aprendizaje por refuerzo para generar flujos de trabajo en lenguaje natural. Produce subtareas, decide qué agente las ejecuta y define qué respuestas previas ve cada agente. Puede montar topologías secuenciales, en paralelo o en árbol, y puede llamarse a sí mismo de forma recursiva para escalar el cómputo durante la inferencia.

Ese último detalle es el más jugoso. El modelo de Fugu es, en sí mismo, un modelo de lenguaje pequeño que aprende a llamar a otros LLM, y durante el entrenamiento aprende incluso a llamarse a sí mismo, lo que habilita el escalado en tiempo de inferencia.

El flujo mental, paso a paso, sería así:

  1. Tú mandas una petición a fugu o a fugu-ultra.
  2. El coordinador evalúa si basta con una respuesta simple o hay que descomponer el problema.
  3. Si hay que descomponer, crea un mini flujo de trabajo.
  4. Reparte roles o subtareas entre los modelos del pool.
  5. Recoge resultados, verifica, refina o sintetiza.
  6. Te devuelve una sola respuesta.

Si esto te recuerda al loop engineering —ese ciclo de encontrar el trabajo, repartirlo, verificarlo y decidir el siguiente paso— vas bien. Fugu es, en esencia, un loop con condición de parada que han entrenado para que lo lleve un modelo en vez de tu dedo pulsando enter. Y al igual que en un loop casero, la pieza que de verdad sostiene la calidad es el verificador, no el bucle en sí.

Hay un peaje que conviene tener presente desde ya: coordinar varios modelos consume tokens a manos llenas, porque cada agente hace su propio trabajo de modelo y de herramientas. Es el mismo token burn que diseccioné al hablar del harness engineering, y con Fugu lo pagas sin ver el desglose.

👉 ¿Y qué diferencia hay entre las dos versiones que te puedes encontrar?

Entender cómo se coordinan los modelos por dentro es justo el tipo de cambio que seguimos en directo. Cada domingo, +6.700 developers compartimos lo que vamos aprendiendo sobre IA en el día a día del desarrollo. Gratis, desde 2018.

Quiero esa dinamita 🧨

Fugu y Fugu Ultra: cuál es cuál

Hay dos variantes principales, y la elección no es de adorno.

Modelo Enfoque Para qué encaja
Fugu Equilibrio entre latencia y calidad Trabajo diario, código, revisión, chatbots, uso interactivo
Fugu Ultra Máxima calidad con más orquestación Tareas largas, investigación, reproducción de papers, ciberseguridad, análisis complejo

La consola oficial lo deja claro: Fugu enruta al mejor modelo según la tarea, mientras que Fugu Ultra coordina un pool más profundo de agentes y puede enrutar entre uno y tres agentes según el problema. Ultra prioriza calidad a costa de más tiempo de respuesta.

Traducido a tu día a día: Fugu es el que pondrías en un chat o en una tarea interactiva donde no quieres esperar dos minutos por respuesta. Ultra es el que reservas para el marrón gordo, el que no te importa dejar trabajando mientras te tomas un café (o tres).

Cómo se usa: API compatible con OpenAI

Antes de nada, un aviso: si nunca has trabajado con un agente de terminal y esto te suena a chino, el método base no te lo da Fugu. Lo tienes en la guía de cómo empezar a programar con IA y, si tu cuartel general va a ser Codex o Claude Code, en el tutorial de Claude Code. El orquestador más listo del mundo no te salva de no tener un flujo de trabajo.

Dicho eso, aquí está la parte que hace que developers de medio mundo levanten la ceja con interés. Todo se entrega a través de un único endpoint compatible con el formato de OpenAI, lo que significa que la integración no exige rearquitecturar tus aplicaciones: cambias un endpoint y de pronto tienes acceso a un sistema multiagente coordinado en lugar de a un solo modelo.

Soporta Responses API, Chat Completions y Models API. Sakana recomienda Responses API para generación, sobre todo por el uso de herramientas, la multimodalidad y la gestión del razonamiento y las function calls.

Si vives en la terminal, también tienen instalación para Codex. El repositorio oficial explica que Fugu se puede instalar sobre Codex con este comando y lanzarse como codex-fugu:

# Instala el wrapper de Fugu sobre Codex CLI
curl -fsSL https://sakana.ai/fugu/install | bash

# Lanza Codex con el perfil de Fugu ya configurado
codex-fugu

En la práctica, según una prueba publicada por DevelopersIO, codex-fugu es un wrapper en Bash que arranca el CLI de Codex con un perfil fugu, configurando el proveedor, la API key y el modelo por ti. Un detalle que dice mucho: la configuración inspeccionada usa wire_api = "responses" y un stream_idle_timeout_ms de 7.200.000 milisegundos. Eso son dos horas de espera de stream inactivo. Nadie pone dos horas de timeout si no espera ejecuciones largas.

Dónde tiene sentido de verdad

Vamos con lo importante, porque no todo vale para todo.

Donde Fugu parece encajar es en tareas largas, ambiguas y de muchos pasos: revisión de código profunda, reproducción de papers, investigación de patentes, análisis de seguridad, benchmarks de razonamiento. Sakana cuenta que Fugu ha servido como herramienta interna clave para sus propios investigadores e ingenieros antes de abrirlo al público.

La propia web de Fugu presume de resultados que, si son ciertos, son para tomar nota. Dicen que Fugu Ultra encontró más de 20 problemas en una base de código de producción donde modelos individuales solo detectaron 3, que redujo un análisis de patentes de 3-4 días a unas horas y que logró un +19,43% de retorno medio en benchmarks de trading.

Y aquí toca el freno de mano.

⚠️ Esos números los pone el vendedor. Son cifras de la propia empresa, sin re-evaluación independiente en igualdad de condiciones. Sirven para entender la apuesta del producto, no para decidir tu arquitectura. La honestidad con los benchmarks empieza por leer también la letra pequeña.

Lo mismo pasa con la tabla de benchmarks oficiales. El número de cabecera es que Fugu Ultra puntuó 73,7 en SWE-Bench Pro, una cifra que, según Sakana, iguala o se acerca al rendimiento de Fable 5 y Mythos Preview de Anthropic. La consola añade un 93,2 en LiveCodeBench y un 95,5 en GPQA Diamond. Cifras potentes, sí. Pero varios baselines con los que se compara los reportan los propios proveedores, no una evaluación neutral.

Si quieres ver cómo se trata esto con la cabeza fría, ya apliqué el mismo escepticismo al analizar GLM-5.2, donde un benchmark de 81-82 en Terminal Bench convivía con un 13 raspado en tareas de muy largo recorrido. La lección se repite: un número bonito en una diapositiva no te arregla el monolito de 2017 sin dejar cadáveres en utils.ts.

La comunidad, por su parte, está dividida y eso es sano. En Hacker News abundan los “¿esto no es OpenRouter?”. En Reddit, la lectura escéptica más repetida la resume bien un comentario: contexto antes de que nadie piense que Sakana ha entrenado una AGI desde cero, Fugu es un orquestador. Pero también hay señales del otro lado: un usuario contó que en un proyecto grande de ingestión de datos, Fugu le encontró cosas que Opus 4.8 y Codex 5.5 xhigh habían pasado por alto. El matiz que lo cambia todo: quemó un 35% de su cuota semanal de 100 dólares en unos 20 minutos y tres prompts.

Potente, pero no precisamente una tostadora de tokens de bajo consumo.

Separar lo que de verdad trae una herramienta de lo que es marketing con kimono es parte del oficio ahora mismo. En la newsletter ponemos orden cada domingo entre tanto lanzamiento, con 12 recursos seleccionados y lo que aportan los +6.700 que participan.

Apúntate gratis →

Las pegas que no salen en la diapositiva

Aquí es donde el producto se gana o se pierde la confianza. Y Fugu tiene cuatro peros que conviene mirar de frente.

La caja negra.
Es la limitación de fondo. Sakana dice de forma explícita que no expone qué modelos concretos selecciona Fugu ni cómo los coordina, porque esa información es propietaria. Separa ciertos tokens de orquestación en el objeto usage, pero no te va a decir “he llamado a este, luego a aquel y al final a este otro”. Para un side project da igual. Para una empresa con requisitos de trazabilidad, auditoría o cumplimiento, esa opacidad es una conversación seria con tu responsable de seguridad.

El coste.
En pago por uso, Fugu Ultra cuesta 5 dólares por millón de tokens de entrada, 30 por millón de salida y 0,50 por millón de entrada cacheada, con precios más altos si el contexto supera los 272.000 tokens. Las suscripciones son Standard a 20 dólares al mes, Pro a 100 y Max a 200. No es un capricho barato. Y como ya advertía antes, el consumo se dispara con facilidad: cada agente hace su propio trabajo de modelo y de herramientas, y dar autonomía sin poner frenos sale caro.

La latencia.
DevelopersIO midió llamadas de Fugu Ultra entre 11 y 269 segundos en una primera prueba, y recomendó reservar Ultra para tareas de procesamiento por lotes o de pensamiento profundo, no para chat interactivo. Tiene lógica: si por dentro está montando un comité de modelos para tu pregunta, esa deliberación se paga en segundos.

Y el pero que te va a doler si programas desde España.

🛡️ Sakana Fugu no está disponible ahora mismo en la UE ni en el EEE mientras trabajan en el cumplimiento del RGPD y la regulación europea específica. Lo dicen tanto en la portada como en la FAQ. Si estás en Valladolid, Madrid o Lisboa, esto no es un “ya lo probaré el finde”: es un “no puedo probarlo legalmente desde aquí, de momento”.

Es una ironía deliciosa, por cierto. Fugu Ultra se compara hombro con hombro con Fable 5 y Mythos Preview de Anthropic, justo los modelos que se volvieron inaccesibles para gran parte del mundo por unos controles de exportación basados en seguridad nacional el 12 de junio de 2026. El argumento de venta es “capacidad frontera sin el riesgo de los export controls”… y resulta que el propio Fugu llega a Europa con la persiana medio bajada por otra regulación distinta. El que evita un muro se topa con otro.

Si te perdiste aquel episodio de los modelos Mythos y Fable, fue uno de esos lanzamientos que tuve que actualizar a toda prisa. La idea de Fugu vive precisamente en esa grieta: si no puedes acceder al modelo cerrado de turno por geopolítica, quizás puedas acceder a un coordinador que orquesta lo que sí tienes a mano.

Dónde lo colocaría yo en tu flujo

Te dejo mi lectura, que para eso estamos. No trataría a Fugu como “un modelo mejor”. Lo trataría como un coordinador caro para tareas donde el coste de equivocarte o quedarte corto es mayor que el coste de orquestar.

Modo de trabajo Qué controlas tú Qué papel le daría a Fugu
Vibe coding Casi nada, fe y café Poco útil si solo buscas velocidad
Programación asistida en serio Objetivo, tests, revisión Buen candidato como revisor o asesor
Flujo agéntico Plan, restricciones, entorno Puede coordinar subtareas y verificaciones
Loop engineering Métricas, harness, evaluación Un componente potente pero caro dentro del bucle

Para un prompt pequeño, usar Fugu es matar moscas con un dron militar. Para revisión de código profunda, investigación, análisis de seguridad o reproducción de papers, ahí empieza a tener sentido pagar por la orquestación.

Y si lo que de verdad necesitas es decidir qué modelo poner en tu stack diario para programar, eso es otra conversación (la de la comparativa que enlazaba al principio). Fugu no compite ahí: compite un piso por encima, en la capa que decide a quién llamar.

💡 Si solo te llevas una cosa de este artículo: Fugu no es “un modelo más potente”. Es un coordinador. Y un coordinador caro y opaco solo merece la pena cuando el problema es lo bastante grande, largo y ambiguo como para que el reparto entre especialistas gane a llamar a un único modelo bueno. Para casi todo lo demás, sigues teniendo opciones más baratas y transparentes.

El movimiento de Sakana es interesante de verdad porque convierte una idea que todos estábamos rondando —planificar, repartir, ejecutar, verificar, sintetizar— en un producto con API. No te pide diseñar el grafo. Lo decide él. Eso es a la vez su mayor virtud y su mayor riesgo: comodidad a cambio de control.

¿Te fías de un coordinador que no te cuenta a quién llama por dentro? ¿O prefieres seguir montando tu propio loop, más cabezón pero tuyo, donde sabes exactamente qué agente toca qué? No hay respuesta única. Pero ahora, al menos, sabes lo que estás comprando cuando alguien te diga que Fugu es “un modelo frontera”. No lo es. Es una orquesta. Y tú decides si quieres ver la partitura.

Preguntas frecuentes sobre Sakana Fugu

¿Qué es Sakana Fugu exactamente?

Es un sistema multiagente de Sakana AI que coordina varios modelos de lenguaje (de distintos proveedores) detrás de una sola API compatible con OpenAI. En lugar de depender de un único modelo, ensambla y dirige un pool de agentes especialistas para resolver tareas complejas, y te devuelve una respuesta única.

¿Es lo mismo que OpenRouter o un router de modelos?

No del todo. Un router enruta una petición a un modelo según reglas fijas. Fugu aprende a decidir un proceso completo: descompone la tarea, asigna roles, coordina varios modelos y sintetiza el resultado. La coordinación es entrenada, no un grafo cableado a mano.

¿En qué se diferencian Fugu y Fugu Ultra?

Fugu busca equilibrio entre latencia y calidad y enruta al mejor modelo para cada tarea. Fugu Ultra coordina un pool más profundo de agentes, puede enrutar entre uno y tres a la vez y prioriza calidad a costa de más tiempo de respuesta. Ultra es para tareas largas y complejas; Fugu, para uso interactivo.

¿Puedo usar Sakana Fugu desde España?

Ahora mismo no de forma directa. Sakana indica que Fugu no está disponible en la UE ni en el EEE mientras trabajan en el cumplimiento del RGPD y la regulación europea. Conviene revisar su web oficial, porque esto puede cambiar.

¿Cuánto cuesta Sakana Fugu?

En pago por uso, Fugu Ultra cuesta 5 dólares por millón de tokens de entrada, 30 por millón de salida y 0,50 por millón de entrada cacheada, con tarifas mayores si superas los 272.000 tokens de contexto. Hay suscripciones de 20, 100 y 200 dólares al mes.

¿Sobre qué investigación se basa Fugu?

Sobre dos trabajos presentados en ICLR 2026: Trinity, que coordina modelos asignándoles roles de pensador, trabajador y verificador, y Conductor, un modelo de unos 7.000 millones de parámetros entrenado con aprendizaje por refuerzo para generar flujos de trabajo y coordinar agentes.

¿Por qué tanto ruido con los export controls?

Porque Fugu se compara con Fable 5 y Mythos Preview de Anthropic, modelos que quedaron inaccesibles para gran parte del mundo por controles de exportación en junio de 2026. La apuesta de Fugu es ofrecer capacidad frontera orquestando los modelos disponibles, esquivando el bloqueo a un modelo concreto.

¿Qué desventajas tiene Sakana Fugu?

Cuatro principales: es una caja negra (no expone qué modelos usa), tiene un coste alto y fácil de disparar, sufre latencia elevada en Ultra (de segundos a varios minutos) y no está disponible en la UE ni el EEE por ahora.

¿Es lento Fugu?

Fugu Ultra puede serlo. Mediciones independientes vieron llamadas de entre 11 y 269 segundos, lo que tiene sentido para un sistema que coordina varios modelos. Se recomienda reservarlo para tareas por lotes o de razonamiento profundo, no para chat interactivo.

¿Para qué tareas merece la pena Fugu?

Para trabajo largo, ambiguo y de muchos pasos: revisión de código profunda, reproducción de papers, investigación, análisis de seguridad y benchmarks de razonamiento. Para prompts pequeños o tareas rápidas, hay opciones más baratas y transparentes.

Fuentes

🧨 Última oprtunidad para recibir la dinamita que mereces sobre programación con IA el próximo domingo: Suscríbete gratis a Web Reactiva en https://webreactiva.com/newsletter

Imagen de Daniel Primo
Claude, IA de Anthropic

Escrito con la ayuda de la IA generativa de Claude, fuentes fidedignas y con un human in the loop:
Dani Primo.

CEO en pantuflas de Web Reactiva. Programador y formador en tecnologías que cambian el mundo y a las personas. Activo en linkedin, en substack y canal @webreactiva en telegram

12 recursos para developers cada domingo en tu bandeja de entrada

Además de una skill práctica bien explicada, trucos para mejorar tu futuro profesional y una pizquita de humor útil para el resto de la semana. Gratis.