Claude Sonnet 5 vs Opus 4.8: cuál usar para programar
Anthropic acaba de soltar Claude Sonnet 5 y, antes de que te lo cuenten mal en cuatro hilos de X, te lo resumo en una frase: no viene a matar a Opus 4.8, viene a comerse buena parte del trabajo rutinario que hasta ayer le encargabas a Opus.
Salió el 30 de junio de 2026. Es el modelo por defecto en los planes Free y Pro, está en Claude Code, en la API (claude-sonnet-5) y en Bedrock, Vertex AI y Microsoft Foundry. Hasta aquí, lo de siempre.
Lo interesante no es eso.
Lo interesante es que Anthropic lo vende como el Sonnet más agéntico hasta la fecha, lo pone rozando a Opus 4.8 en varios benchmarks y le cuelga un precio que pica de verdad. Y, sin embargo, la pregunta buena que tienes que hacerte no es “¿es más listo?”. Es otra. Te la cuento entera en este artículo.
Esto es lo que vas a encontrar aquí:
- Qué trae Sonnet 5 de nuevo y dónde lo coloca Anthropic en su catálogo
- El precio real, con la trampa del tokenizador que casi nadie te cuenta
- Los benchmarks sin la capa de marketing
- Cuándo te conviene Sonnet 5 y cuándo sigue ganando Opus 4.8
- El patrón “planificar con uno, ejecutar con otro” que ahorra dinero
- Cómo montar tu propia mini-evaluación para no tragarte el post de lanzamiento
Manos al teclado.
Qué es Claude Sonnet 5 y dónde encaja en el catálogo ¶
Sonnet 5 es la evolución de Sonnet 4.6, el modelo de gama media de Anthropic. La idea de la familia Sonnet no ha cambiado: ser el caballo de tiro para el día a día, el que usas para programar, mover agentes y resolver tareas de conocimiento sin pagar el peaje de un modelo insignia.
¿Qué cambia respecto a su predecesor? Anthropic insiste en cuatro áreas: razonamiento, uso de herramientas, programación y trabajo de conocimiento. La novedad de fondo es la autonomía. Según la propia empresa, Sonnet 5 hace planes, maneja navegadores y terminales, y termina tareas de varios pasos que antes pedían un modelo más grande y más caro.
Si vienes de la comparativa entre los dos Claudes anteriores, este es el patrón de siempre llevado un escalón más arriba. Lo conté en su día en el cara a cara entre Sonnet 4.6 y Opus 4.6: Sonnet domina en flujos agénticos iterativos, Opus domina en planificación profunda de una sola pasada. Sonnet 5 estrecha esa distancia, pero no la borra. Toda esta conversación tiene más sentido si ya manejas un agente como Claude Code o alguno de sus alternativos open source, porque es ahí donde eliges qué modelo mueve cada tarea.
Y aquí viene el matiz que importa, y que está negro sobre blanco en la documentación oficial:
🔑 Sonnet 5 es el Sonnet más capaz, pero no empuja la frontera de capacidades de Anthropic. Sube mucho el suelo de la familia, no toca el techo. Para el techo siguen estando Opus 4.8 y los modelos Mythos.
Tradúcelo a román paladino: Anthropic ha levantado el listón de su modelo “barato” hasta casi tocar al caro, pero no ha presentado a Sonnet 5 como su modelo más potente. Es una jugada de mercado, no de récord.
Por cierto, si te perdiste el contexto de los modelos Mythos y Fable —ese escalón por encima de Opus que casi nadie puede tocar—, lo desmenucé en el artículo sobre Claude Mythos. Te ayuda a entender por qué Sonnet 5 vive donde vive.
Por muy agéntico que sea el modelo, sin método improvisa
Sonnet 5 hace planes y maneja la terminal, pero el método lo pones tú: recorre el ciclo completo de SDD con OpenSpec (propuesta, spec, diseño, tareas y apply) sobre un proyecto real y en modo asistido antes de coger tú el volante.
Entra en el curso gratis →¿Cuánto cuesta Claude Sonnet 5 de verdad? ¶
El precio de lanzamiento es 2 dólares por millón de tokens de entrada y 10 por millón de salida, en oferta de estreno hasta el 31 de agosto de 2026. Después sube a 3 / 15
Comparémoslo con la familia para que las cifras digan algo:
| Modelo | Entrada (por M tokens) | Salida (por M tokens) |
|---|---|---|
| Sonnet 5 (precio de estreno) | 2 $ | 10 $ |
| Sonnet 5 (precio estándar) | 3 $ | 15 $ |
| Opus 4.8 | 5 $ | 25 $ |
Sobre el papel, Sonnet 5 estándar cuesta más o menos un 40% menos por token que Opus 4.8. En la ventana de estreno, la rebaja es todavía más golosa. Hasta aquí, la lectura fácil: modelo casi tan bueno, mucho más barato, y a usarlo.
Pero el papel miente un poco.
Porque hay un detalle que Anthropic menciona y casi todos los titulares se saltan: el nuevo tokenizador puede convertir el mismo texto de entrada en entre 1,0 y 1,35 veces más tokens. Es el mismo fenómeno que ya sufrimos con el cambio de tokenizador de Opus 4.7, que también disparó el consumo. O sea: el precio por token baja, pero la cantidad de tokens que consume tu tarea puede subir.
💡 El coste que te importa no es el coste por token. Es el coste por tarea resuelta. Y esos dos números no siempre se mueven en la misma dirección.
Lo explico con una imagen. Imagina dos taxis. Uno cobra menos por kilómetro, pero da más vueltas para llegar al mismo sitio. El otro cobra más por kilómetro, pero conoce el atajo. ¿Cuál sale más barato? Depende del viaje, no de la tarifa.
Con Sonnet 5 pasa igual. En tareas fáciles o medianas, es una ganga clarísima. En tareas duras, donde necesitas subir el nivel de esfuerzo y a lo mejor das tres vueltas de corrección, la cuenta final puede acercarse a la de Opus. A veces igualarla. A veces superarla. Esta es justo la lógica que sostiene cualquier buen routing de modelos para gastar menos, y Sonnet 5 entra ahí como pieza nueva.
Guárdate esa idea. Vuelvo a ella en cuanto veamos los números.
Si lo que te interesa es el coste real de cada modelo de IA y no el del titular, cada domingo te cuento lo que voy aprendiendo sobre adoptar IA en el desarrollo sin que la factura se desboque. Gratis, ya somos +6.700.
Apúntate gratis →Los benchmarks de Sonnet 5, sin la capa de purpurina ¶
Vamos a los datos que ha publicado Anthropic, con Opus 4.8 al lado como vara de medir. Recuerda que las cifras son una foto, no la película.
| Benchmark | Sonnet 4.6 | Sonnet 5 | Opus 4.8 |
|---|---|---|---|
| SWE-bench Pro (coding agéntico) | 58,1% | 63,2% | 69,2% |
| Terminal-Bench 2.1 | 67,0% | 80,4% | — |
| OSWorld-Verified (computer use) | 78,5% | 81,2% | — |
| Razonamiento con herramientas | 46,8% | 57,4% | — |
| GDPval-AA (trabajo de conocimiento) | 1395 | 1618 | 1615 |
Hay tres lecturas que sacar de esta tabla.
La primera: Sonnet 5 le saca ventaja a Sonnet 4.6 en todo. No hay un solo benchmark publicado donde el modelo nuevo pierda contra el viejo. El salto en Terminal-Bench (de 67 a 80) y en uso de herramientas (de 47 a 57) es de los que se notan en el terminal, no solo en la hoja de Excel.
La segunda: en programación agéntica seria (SWE-bench Pro), Opus 4.8 sigue por delante. 69,2% contra 63,2%. La distancia se ha estrechado, sí, pero no ha desaparecido. Quien te diga que Sonnet 5 “ya es como Opus” en código complejo no ha mirado bien la columna de la derecha.
La tercera, y la más jugosa: en trabajo de conocimiento (GDPval-AA), Sonnet 5 adelanta a Opus 4.8 por los pelos, 1618 contra 1615. Es un empate técnico, pero simbólico. Un modelo de gama media rozando o superando al insignia en tareas de razonamiento aplicado a finanzas, legal y dominios profesionales. Eso hace un año era ciencia ficción.
⚠️ Cuidado con extrapolar de un benchmark a tu trabajo. Que un modelo gane en GDPval-AA no significa que gane en tu refactor de los martes. Los benchmarks miden lo que miden, no lo que tú haces.
Si quieres el cuadro completo con todos los modelos de la temporada —los Claude, GPT-5.x, Gemini 3.1, los open source como GLM y Kimi—, lo mantengo actualizado en la comparativa de los mejores modelos para programar. Aquí me centro en el recién llegado.
Qué dice un tercero independiente: el índice de Artificial Analysis ¶
Las cifras de arriba las publica Anthropic, así que conviene un segundo par de ojos que no venda el producto. Artificial Analysis mantiene su Intelligence Index v4.1, que combina nueve evaluaciones (GDPval-AA v2, Terminal-Bench 2.1, SciCode, Humanity’s Last Exam, GPQA Diamond y unas cuantas más). Esto es lo que sale, con Sonnet 5 a máximo esfuerzo:
| Modelo | Intelligence Index |
|---|---|
| Claude Fable 5 (con fallback) | 60 |
| Claude Opus 4.8 (max) | 56 |
| GPT-5.5 (high) | 55 |
| Claude Sonnet 5 (max) | 53 |
| GLM-5.2 (max) | 51 |
| GPT-5.5 (medium) | 50 |
| Gemini 3.5 Flash | 50 |
| Gemini 3.1 Pro Preview | 46 |
La foto cuadra con lo que cuenta Anthropic, pero le quita un poco de épica. Sonnet 5 a tope se planta en un 53, por delante de GLM-5.2 y de la gama Gemini, pero por debajo de Opus 4.8 (56) y de Fable 5 (60). Es un gran Sonnet. No es el modelo más inteligente que puedes usar, ni de lejos.
🔑 Sonnet 5 no destrona a nadie por arriba. Lo que hace es ofrecer un 53 de inteligencia a precio de gama media. El truco está en si ese 53 te sale realmente barato. Spoiler: depende del esfuerzo, y ahí viene la sorpresa.
¿Cuándo usar Sonnet 5 y cuándo seguir con Opus 4.8? ¶
Esta es la pregunta del millón, y la respuesta honesta empieza con un “depende” que no es escaqueo, es ingeniería.
La propia Anthropic deja una pista muy clara: Opus 4.8 sigue siendo el modelo de elección cuando necesitas más precisión en tareas difíciles. Sonnet 5 te da una opción de mucha más calidad que lo que había antes a ese precio. Entre los dos, ajustas el nivel de esfuerzo hasta encontrar el equilibrio.
Y aquí aparece el dato que cambia toda la conversación. The New Stack lo midió: con Sonnet 5 a tope de esfuerzo (Extra High), su rendimiento en OSWorld-Verified y en búsqueda agéntica se pone a la altura de Opus 4.8 en esfuerzo medio-alto. Suena fenomenal. Pero a ese nivel de esfuerzo, Sonnet 5 sale más caro de ejecutar que Opus 4.8 en su nivel comparable.
Léelo otra vez, porque es contraintuitivo.
Si tienes que empujar a Sonnet 5 hasta xhigh para que iguale a Opus, a lo mejor te habría salido más barato usar Opus directamente. El modelo “barato” deja de serlo justo cuando lo fuerzas a hacer lo que se le da bien al “caro”.
Y esto ya no es una teoría mía. Hay números encima de la mesa.
Artificial Analysis midió cuánto cuesta ejecutar su batería completa de evaluaciones con cada modelo a máximo esfuerzo. El resultado deja a más de uno con la boca abierta:
Lee bien las barras. A máximo esfuerzo, ejecutar el benchmark completo con Sonnet 5 cuesta 6.015 dólares. Con Fable 5, un modelo de clase Mythos, 5.631. Con Opus 4.8, el insignia público, 3.753. Con GPT-5.5 en xhigh, 2.819.
Sí, has leído bien. El “Sonnet barato” es el modelo más caro de toda la tabla para hacer el mismo trabajo. Más caro que Opus. Más caro incluso que Fable 5.
Theo (t3.gg) lo resumió en X con la cara de incredulidad que tendrías tú: flipó al ver que Sonnet 5 le había salido más caro que Fable para ejecutar el banco entero. Y no es un error de medición: es la consecuencia directa de juntar el cambio de tokenizador con un modelo que, a tope de esfuerzo, devora tokens como si no hubiera mañana.
⚠️ El precio por token de Sonnet 5 es bajo. El coste de una tarea exigente a máximo esfuerzo puede ser el más alto de su categoría. Las dos cosas son verdad a la vez, y la segunda es la que paga la factura.
Por eso la rebaja del titular es una media verdad. Sonnet 5 es baratísimo cuando lo usas para lo que es: tareas acotadas, esfuerzo bajo o medio, volumen. En cuanto lo subes a la máxima potencia para que compita con el insignia, el ahorro no solo se evapora: se da la vuelta.
Por si no conoces los niveles de esfuerzo, son ese mando de potencia que Anthropic introdujo con Opus 4.7 y su nivel xhigh: subes el esfuerzo, el modelo razona más y gasta más tokens; lo bajas, va al grano y ahorra.
Con todo esto, mi mapa práctico queda así.
Tira de Sonnet 5 para:
- Implementación del día a día: componentes, endpoints, funciones acotadas.
- Refactors con un alcance claro y bien definido.
- Tareas de CLI y automatizaciones repetitivas.
- Agentes con instrucciones precisas y mucho volumen.
- Análisis de documentación, generación de tests, trabajo donde el coste por unidad manda.
Sigue tirando de Opus 4.8 para:
- Planificación inicial y decisiones de arquitectura.
- Debugging raro, de esos que no aparecen en Stack Overflow.
- Migraciones delicadas donde un fallo cuesta caro.
- Tareas largas, ambiguas, con mucho hilo del que tirar.
- Cualquier cosa donde repetir el trabajo por un error salga más caro que el modelo premium.
🎯 La regla que repito hasta aburrir: usa el modelo mínimo suficiente y escala solo cuando haya señales claras. Mandar a Opus 4.8 a renombrar una variable es como pedir la grúa de seis ejes para cambiar una rueda.
Esa lógica de routing —elegir el modelo según la tarea, no según quién la tenga más larga— la desarrollé entera en cómo gastar menos eligiendo bien el modelo. Sonnet 5 entra ahí como el nuevo “modelo de trabajo” por defecto, desplazando a Sonnet 4.6.
El patrón que de verdad ahorra: planifica con Opus, ejecuta con Sonnet ¶
Si solo te llevas una táctica de este artículo, que sea esta. No la he inventado yo, la lleva proponiendo media comunidad desde que existen dos modelos con personalidades distintas, pero con Sonnet 5 cobra más sentido que nunca.
La idea es separar dos fases que solemos mezclar:
- Planificar. Entender el problema, decidir la arquitectura, escribir el plan. Aquí brilla Opus 4.8: pregunta antes de actuar, frena ante un plan flojo, reconoce sus dudas en vez de tirar hacia delante.
- Ejecutar. Convertir ese plan en código, archivo a archivo, paso a paso. Aquí brilla Sonnet 5: rápido, obediente con las instrucciones claras, mucho más barato por token.
Llevarlo a la práctica en Claude Code es directo. Arrancas la fase de diseño con el modelo potente y, una vez tienes el plan cerrado, bajas a Sonnet 5 para picar el grueso del trabajo.
# Fase 1: planificación con el modelo potente
claude --model opus-4.8 --effort xhigh
# Le pides un research.md y un plan.md anotado antes de tocar código
# Fase 2: ejecución con el modelo de trabajo
claude --model claude-sonnet-5 --effort medium
# Sonnet 5 implementa el plan paso a paso, tú revisas cada cambio
Si nunca has montado este flujo, en el tutorial de Claude Code explico paso a paso lo de separar planificación de ejecución con research.md, plan.md y verificación con tests. Es la base sobre la que esta táctica funciona.
🛡️ Separar planificación de ejecución no es una manía de purista. Cuando la tarea tiene sustancia, dejar que el modelo salte a programar sin plan es una receta para el desastre. Da igual lo agéntico que sea.
Este reparto también vale fuera de Claude Code. Si trabajas con OpenCode u otro harness agnóstico del modelo, la lógica es idéntica: el modelo “pensador” para diseñar, el “velocista” para ejecutar. Lo que cambia es el andamiaje, no la estrategia. De las diferencias entre uno y otro hablé en Claude Code frente a OpenCode.
El plan que sí puedes ejecutar
El método para que el plan de Opus llegue ejecutable a Sonnet
Te llevas los patrones que estresan el plan antes de implementarlo —subagentes antagónicos, plan-reviewer— y las skills que se quedan contigo de proyecto en proyecto.
Ver el método entero →Audio premium · Web Reactiva Premium · sin permanencia
¿Es Sonnet 5 más seguro? Lo que dice la system card ¶
Anthropic publica una system card, no una simple model card, y el mensaje en seguridad tiene dos caras.
La buena: Sonnet 5 mejora frente a Sonnet 4.6 en rechazo de peticiones maliciosas, en resistencia a los ataques de inyección de prompts, en alucinaciones y en sycophancy (esa tendencia a darte la razón como a los tontos). En conjunto, se comporta mejor que su predecesor en contextos agénticos, donde un modelo suelto puede hacer estropicios.
La menos buena: en algunas métricas de comportamiento alineado, Sonnet 5 sigue por debajo de Opus 4.8 y de Mythos Preview. No es alarmante, pero conviene saberlo si lo vas a dejar operando solo.
En ciberseguridad, el dato es tranquilizador y revelador a la vez. En una prueba de desarrollo de exploits hecha con Mozilla sobre Firefox, ningún modelo Sonnet logró un exploit funcional: 0,0% los dos. Sonnet 5 sube su tasa de éxito parcial (13,2% frente al 8,8% de Sonnet 4.6), pero queda lejísimos del 68,8% de exploits funcionales de Opus 4.8 y del 88,4% de Mythos 5.
Por esa subida pequeña en capacidades cyber-adyacentes, Anthropic lanza Sonnet 5 con salvaguardas de ciberseguridad activadas por defecto. Eso sí, menos estrictas que las de Fable 5, el modelo Mythos al que prácticamente le cortaron el grifo en seguridad.
🔑 La frase que resume la system card: Sonnet 5 sube el suelo de seguridad de la familia Sonnet, pero no es el modelo más alineado del catálogo. Para autonomía sin supervisión, esa diferencia con Opus importa.
Dejar un agente operando solo impone, y de eso va buena parte de lo que compartimos cada domingo: experiencias reales adoptando IA en el día a día del desarrollo. +6.700 developers, desde 2018.
Quiero esa dinamita 🧨Cómo montar tu propia mini-evaluación (y no fiarte de nadie) ¶
Aquí llega la parte incómoda. Ni el post de Anthropic, ni este artículo, ni el hilo más viral de X saben cómo es tu código, tus prompts y tus repos. Los benchmarks no programan por ti. Tú sí.
Así que antes de migrar tu flujo entero a Sonnet 5 o de descartarlo por caro, móntate una evaluación de andar por casa. No necesitas un laboratorio, necesitas diez tareas reales tuyas y una tarde.
El plan es este:
- Elige 10 tareas representativas de tu trabajo real. No ejemplos de juguete: bugs de verdad, refactors de verdad, features de verdad.
- Ejecuta cada una con Sonnet 5 y con Opus 4.8 en condiciones equivalentes, partiendo del mismo punto.
- Anota cinco cosas por tarea: coste total, tokens consumidos, tiempo, número de correcciones que tuviste que pedir y calidad final del resultado.
- Compara coste por tarea, no coste por token. Ya sabes por qué.
- Decide por categoría, no en bloque. A lo mejor Sonnet 5 gana en implementación y Opus gana en debugging. Eso es una victoria, no una indecisión.
La pregunta que tienes que responder al final no es “¿cuál es más listo?”. Es esta:
💡 ¿Qué modelo resuelve esta clase de tarea con menos coste total y menos fricción? Esa es la única métrica que paga facturas.
Te aviso de algo que vas a ver en los foros mientras decides. En Hacker News y en Reddit el debate no es “¿Sonnet 5 supera a Sonnet 4.6?” —eso lo dan por hecho—, sino “¿cuándo conviene frente a Opus 4.8?”. Hay quien señala que en esfuerzo alto Sonnet 5 puede costar parecido a Opus y rendir algo menos, y se pregunta para qué usarlo ahí. Otros defienden la velocidad como el caso de uso que lo justifica. Las dos posturas tienen razón, según la tarea. Por eso la única respuesta sólida es la tuya, medida con tus datos.
Cómo empezar con Sonnet 5 hoy mismo ¶
Si ya tienes Claude o Claude Code, no tienes que hacer nada raro: Sonnet 5 es el modelo por defecto en Free y Pro desde el día del lanzamiento. En Max, Team y Enterprise también está disponible.
Para la API, el identificador es claude-sonnet-5. Un ejemplo mínimo en Python para que veas que no hay misterio:
import anthropic
client = anthropic.Anthropic()
# Sonnet 5 como modelo de trabajo para una tarea acotada
message = client.messages.create(
model="claude-sonnet-5",
max_tokens=2048,
messages=[
{
"role": "user",
# La instrucción clara importa más que nunca con un modelo agéntico
"content": "Refactoriza esta función para que sea testeable y añade 3 tests",
}
],
)
print(message.content)
Un par de avisos prácticos para que la factura no te dé un susto:
- Empieza con esfuerzo medio. No subas a xhigh por costumbre. Sube solo cuando la tarea lo pida y notes que el modelo se queda corto. Ahí es donde el ahorro se evapora.
- Vigila el consumo de tokens los primeros días. Con el cambio de tokenizador, la misma tarea puede gastar más de lo que esperabas. Mide antes de cantar victoria con la rebaja de precio.
Y recuerda la ventana de estreno: hasta el 31 de agosto de 2026 tienes el precio de 2/10. Es la oportunidad perfecta para hacer esa mini-evaluación que te he propuesto, justo cuando ejecutar pruebas sale más barato. Después sube a 3/15 y la cuenta cambia.
Aquí toca una dosis de malicia sana. Como apuntan en VentureBeat y en el análisis de HandyAI, esta oferta de estreno cae justo mientras Anthropic corre hacia su salida a bolsa. Un precio agresivo que caduca al terminar el trimestre tiene toda la pinta de una palanca para inflar las cifras de uso antes del roadshow, y luego resetear a 3/15 dejando que el coste de cambiarse haga el resto. No te lo cuento para asustarte: te lo cuento para que no montes tu economía unitaria sobre el precio de junio. Si lo haces, en septiembre te llevas un disgusto.
🛡️ El precio del titular es un número de marketing. La capacidad del modelo es real; la oferta es temporal. No dejes que “modelo por defecto, casi gratis, casi como Opus” te haga las cuentas por ti.
La lectura que me llevo ¶
Sonnet 5 no mata a Opus 4.8. Mata buena parte del uso rutinario de Opus 4.8.
Para agentes cotidianos, implementación guiada, refactors acotados y automatizaciones de volumen, parece una herramienta muy seria a un precio que pica. Para planificación de verdad, problemas difíciles y autonomía larga sin red, Opus sigue teniendo su sitio.
El error sería tratar esto como una pelea de “cuál es mejor”. No lo es. Es una caja de herramientas con una llave nueva que cubre un montón de casos que antes pagabas más caros. Tu trabajo no es elegir el modelo más listo. Es dirigir la orquesta: saber cuándo entra el velocista y cuándo entra el pensador.
Anthropic ha hecho su jugada. Te ha dado un modelo de gama media que roza al insignia y una ventana barata para probarlo.
Lo demás, ¿qué te impide a ti medirlo con tus propias tareas?
Preguntas frecuentes sobre Claude Sonnet 5 ¶
¿Cuándo salió Claude Sonnet 5?
Anthropic lanzó Claude Sonnet 5 el 30 de junio de 2026. Está disponible desde el primer día en Claude, Claude Code, la API y las plataformas de Amazon Bedrock, Google Vertex AI y Microsoft Foundry.
¿Cuánto cuesta Claude Sonnet 5?
El precio de estreno es de 2 dólares por millón de tokens de entrada y 10 por millón de salida, vigente hasta el 31 de agosto de 2026. Después sube a 3 dólares de entrada y 15 de salida por millón de tokens.
¿Es Claude Sonnet 5 mejor que Opus 4.8?
No en todo. En programación agéntica compleja (SWE-bench Pro) Opus 4.8 sigue por delante, con un 69,2% frente al 63,2% de Sonnet 5. En trabajo de conocimiento, Sonnet 5 lo iguala o supera por un margen mínimo. Anthropic posiciona a Sonnet 5 como modelo de trabajo, no como su modelo más capaz.
¿Cuál es el identificador de Sonnet 5 en la API?
El identificador es claude-sonnet-5. Con ese string lo invocas desde la API de Anthropic o desde cualquier SDK compatible.
¿Por qué Sonnet 5 puede no ser tan barato como parece?
Porque el nuevo tokenizador puede convertir el mismo texto en hasta 1,35 veces más tokens, y porque en tareas difíciles necesitas subir el nivel de esfuerzo. El coste por token baja, pero el coste por tarea resuelta no siempre baja en la misma proporción.
¿Sonnet 5 sustituye a Sonnet 4.6?
Sí. Sonnet 5 pasa a ser el modelo de gama media de referencia y el modelo por defecto en los planes Free y Pro, reemplazando a Sonnet 4.6 en ese papel.
¿Cuándo conviene usar Sonnet 5 en lugar de Opus 4.8?
Para implementación diaria, refactors acotados, tareas de CLI, agentes con instrucciones claras y trabajo de volumen donde el coste importa. Para arquitectura, debugging difícil y migraciones delicadas, Opus 4.8 sigue siendo la opción más segura.
¿Es seguro usar Sonnet 5 para agentes autónomos?
Mejora a Sonnet 4.6 en rechazo de peticiones maliciosas, inyección de prompts, alucinaciones y sycophancy. Aun así, en comportamiento alineado queda por debajo de Opus 4.8 y Mythos Preview, así que conviene supervisión cuando opera sin red.
¿Qué nivel de esfuerzo debo usar con Sonnet 5?
Empieza en medio y sube solo cuando la tarea lo exija. A nivel Extra High, Sonnet 5 puede igualar a Opus 4.8 en algunas pruebas, pero a ese nivel sale más caro de ejecutar, así que en tareas duras a veces compensa ir directo a Opus.
¿Es Sonnet 5 realmente más barato que Opus 4.8?
Por token, sí. Por tarea, no siempre. Las mediciones de Artificial Analysis muestran que, a máximo esfuerzo, ejecutar su batería completa de benchmarks con Sonnet 5 costó 6.015 dólares, más que con Fable 5 (5.631) y bastante más que con Opus 4.8 (3.753). El precio bajo por token se compensa con un consumo de tokens mucho mayor.
¿Tiene Sonnet 5 contexto de un millón de tokens?
Según la documentación de modelos y varios reportes, Sonnet 5 trabaja con una ventana de contexto de hasta un millón de tokens y una salida máxima de 128.000. El anuncio oficial no lo destacó en titular, así que verifícalo en la documentación antes de diseñar un flujo que dependa de ello.
Fuentes ¶
- Anthropic, “Introducing Claude Sonnet 5”
- Anthropic, “Claude Sonnet 5 System Card”
- Artificial Analysis, “Intelligence Index”
- HandyAI, “Model Drop: Claude Sonnet 5”
- TechCrunch, “Anthropic launches Claude Sonnet 5 as a cheaper way to run agents”
- The New Stack, “Anthropic Sonnet 5: It closes the gap with Opus 4.8”
- VentureBeat, “Anthropic launches Claude Sonnet 5 at a steep discount to its top model”
- The Decoder, “Anthropic’s new Claude Sonnet 5 closes the gap to the pricier Opus model series”
- Theo (t3.gg) en X, sobre el coste de ejecutar el benchmark completo
🧨 Última oprtunidad para recibir la dinamita que mereces sobre programación con IA el próximo domingo: Suscríbete gratis a Web Reactiva en https://webreactiva.com/newsletter
12 recursos para developers cada domingo en tu bandeja de entrada
Además de una skill práctica bien explicada, trucos para mejorar tu futuro profesional y una pizquita de humor útil para el resto de la semana. Gratis.