Anthropic lanza Claude Sonnet 5 un 60% más barato que Opus 4.8

Anthropic lanzó Claude Sonnet 5 el martes, un modelo de gama media que iguala o se acerca a su buque insignia Opus 4.8 en los principales puntos de referencia, costando un 60% menos por token, en un momento en que la capacidad de agente se convierte en el nuevo estándar en toda la industria de modelos fundacionales.

"Puede hacer planes, usar herramientas como navegadores y terminales, y ejecutarse de forma autónoma a un nivel que, hace solo unos meses, requería modelos más grandes y costosos", dijo Anthropic en una publicación de blog.

Sonnet 5 obtiene un 63.2% en SWE-bench Pro para codificación de agentes, frente al 58.1% de Sonnet 4.6 y a una distancia considerable del 69.2% de Opus 4.8. En el punto de referencia de trabajo de conocimiento GDPval-AA v2, superó al buque insignia, obteniendo 1,618 frente a los 1,615 de Opus 4.8. El precio introductorio de la API se fija en $2 por millón de tokens de entrada y $10 por millón de tokens de salida hasta el 31 de agosto, después de lo cual aumenta a $3 y $15, aún muy por debajo de los $5 y $25 de Opus 4.8.

El lanzamiento se produce mientras Anthropic se encamina hacia una OPI que pondrá a prueba si las valoraciones de la IA en el mercado privado pueden resistir el escrutinio público. La empresa reportó una tasa de ejecución de ingresos de $47 mil millones después de su Serie H en mayo, pero los márgenes brutos —una cifra que ningún observador externo ha visto— determinarán si la narrativa se sostiene, según Harrison Rolfes, analista de PitchBook.

La fiabilidad de los agentes cierra la brecha entre el piloto y la producción

Los socios de acceso temprano informaron que Sonnet 5 completa flujos de trabajo de múltiples pasos donde los modelos anteriores se estancaban. Daniel Shepard, ingeniero senior en Zapier, dijo que el modelo completó un trabajo de automatización de dos partes —actualizar los niveles de cuenta de Salesforce y enviar un anuncio de lanzamiento— que "solía estancarse a medio camino" con versiones anteriores. Sualeh Asif, cofundador de Cursor, dijo que "con Claude Sonnet 5, los agentes se mantienen en el plan, siguen nuestras convenciones y envían cambios limpios de múltiples pasos, todo a un costo eficiente".

Estos testimonios abordan la brecha de fiabilidad que ha impedido que muchas empresas lleven la IA de agente de los programas piloto a la producción. Un modelo que completa el flujo de trabajo completo cambia la economía de la automatización, particularmente al precio de Sonnet 5. Anthropic presentó curvas de costo-rendimiento que muestran que los desarrolladores ahora pueden ajustar los niveles de esfuerzo entre Sonnet 5 y Opus 4.8 para encontrar el equilibrio óptimo entre costo y precisión para casos de uso específicos.

El lanzamiento refleja movimientos similares de los competidores. GPT-5.6 Sol de OpenAI, lanzado en vista previa la semana pasada, permite a los usuarios dividir el trabajo entre subagentes para tareas autónomas más largas. Gemini 3.5 Flash de Google, lanzado en mayo, se presentó como un cambio de chatbot conversacional a herramienta de agente. El patrón confirma que la capacidad de agente es ahora un requisito básico en todos los niveles de precio, y el diferenciador se traslada a la eficiencia de costos y la fiabilidad sin supervisión humana.

La seguridad mejora pero se queda atrás de los modelos más potentes

Sonnet 5 muestra menores tasas de alucinación y sicofancia que Sonnet 4.6, es mejor para rechazar solicitudes maliciosas y es más resistente a ataques de inyección de indicaciones en contextos de agentes, según las evaluaciones internas de Anthropic. En la auditoría de comportamiento automatizada de la empresa, Sonnet 5 obtuvo una puntuación más baja —es decir, más segura— en general que su predecesor.

Sin embargo, mostró tasas algo más altas de comportamiento desalineado en comparación con Opus 4.8 y Claude Mythos Preview, el modelo de ciberseguridad estrictamente restringido de Anthropic. En una evaluación de desarrollo de exploits de Firefox 147 creada con Mozilla, ninguno de los modelos Sonnet pudo desarrollar un exploit funcional —ambos obtuvieron un 0%— aunque Sonnet 5 mostró una tasa de éxito parcial ligeramente superior del 13.2% frente al 8.8% de Sonnet 4.6. Opus 4.8 obtuvo un 68.8% y Mythos 5 un 88.4%.

Debido a estas mejoras graduales, Anthropic lanzó Sonnet 5 con salvaguardas cibernéticas habilitadas por defecto —sistemas en tiempo real que detectan y bloquean usos peligrosos de ciberseguridad. Las salvaguardas reflejan las de Opus 4.7 y 4.8, pero son menos restrictivas que las aplicadas a Fable 5 y Mythos 5.

Un detalle técnico merece atención: Sonnet 5 utiliza un tokenizador actualizado que cambia la forma en que el modelo procesa el texto, similar al cambio que Anthropic introdujo con Opus 4.7. La misma entrada puede asignarse a aproximadamente 1.0 a 1.35 veces más tokens dependiendo del tipo de contenido. Anthropic dice que el precio introductorio está calibrado para hacer la transición "aproximadamente neutral en costos", pero los clientes empresariales que ejecutan cargas de trabajo de alto volumen querrán evaluar sus casos de uso específicos antes de asumir que sus facturas no cambiarán.

La narrativa de la OPI y lo que Sonnet 5 significa para los inversores

La trayectoria financiera de Anthropic ha sido extraordinaria. En febrero, recaudó $30 mil millones a una valoración de $380 mil millones con $14 mil millones en ingresos anualizados. A finales de mayo, había cerrado una Serie H de $65 mil millones con una valoración post-money de $965 mil millones y una tasa de ejecución de ingresos superior a $47 mil millones. La empresa presentó de forma confidencial su prospecto de OPI ante la SEC a principios de junio.

Sonnet 5 cumple un doble propósito en este contexto. Para los desarrolladores, ofrece mejoras genuinas de capacidad a precios competitivos. Para la narrativa de la OPI de Anthropic, demuestra que la empresa puede ofrecer un producto convincente a un nivel de precio que podría impulsar una adopción generalizada —ingresos recurrentes de API de alto volumen de miles de clientes empresariales. Gil Luria, jefe de investigación tecnológica de D.A. Davidson, dijo a CNBC que si bien Anthropic "parece tener la delantera" en modelos de IA de frontera, "gran parte de su uso actual es para pruebas y experimentación y eso puede no ser sostenible".

La verdadera prueba para Sonnet 5 es si convierte el uso experimental en ingresos de grado de producción. Los clientes empresariales que experimentan con costosos modelos de clase Opus pueden descubrir que Sonnet 5 ofrece calidad suficiente para cargas de trabajo de producción a un precio que los equipos financieros pueden aprobar a escala. Si funciona, podría acelerar el cambio de la experimentación a la implementación que toda empresa de IA necesita para justificar su valoración.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.