Anthropic lanza Fable 5 con salvaguardas mientras la IA de clase Mythos se vuelve pública

El Claude Fable 5 de Anthropic lleva la inteligencia de clase Mythos a los usuarios generales, pero las consultas de ciberseguridad se degradan automáticamente a un modelo menos capaz.

Anthropic lanzó Claude Fable 5, un modelo de IA de clase Mythos que degrada las consultas de investigación en ciberseguridad y biología a su sistema anterior Opus 4.8, marcando la primera vez que la empresa pone su tecnología más potente a disposición del público en general.

"Queríamos poder ofrecer este nivel de inteligencia a los usuarios generales de una manera segura", declaró Dianne Penn, directora de gestión de productos, investigación y laboratorios de Anthropic, al The Wall Street Journal.

Fable 5 cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, menos de la mitad del precio de Claude Mythos Preview. El modelo supera a todos los sistemas Claude anteriores en tareas de ingeniería de software, visión y trabajo de conocimiento. Stripe utilizó Fable 5 para completar una migración en todo un repositorio Ruby de 50 millones de líneas en un solo día, una tarea que la empresa estimó habría requerido más de dos meses de esfuerzo manual de ingeniería.

El lanzamiento indica que Anthropic cree que sus clasificadores de seguridad son lo suficientemente robustos como para comercializar IA de frontera sin exponer a los usuarios a sus capacidades más peligrosas. Sin embargo, las pruebas iniciales sugieren que las salvaguardas podrían ser más amplias de lo anunciado, lo que posiblemente limite la utilidad del modelo para los profesionales de ciberseguridad, que representan un segmento clave de clientes.

Cómo funcionan las salvaguardas

Fable 5 utiliza clasificadores impulsados por IA que detectan solicitudes relacionadas con ciberseguridad, biología, química y destilación de modelos. Cuando se activan, el sistema redirige la consulta a Claude Opus 4.8 en lugar de Fable 5. Anthropic afirma que la degradación ocurre en menos del 5% de las sesiones, lo que significa que la mayoría de los usuarios interactúan con el modelo Mythos completo durante el uso ordinario.

La empresa describe las salvaguardas como intencionadamente conservadoras, priorizando la seguridad sobre la conveniencia. Anthropic realizó un programa externo de recompensas por errores que no produjo ningún jailbreak universal en más de 1.000 horas de pruebas, aunque la AISI del Reino Unido logró avances hacia uno dentro de una breve ventana de pruebas inicial.

Rob T. Lee, director de IA y jefe de investigación del SANS Institute, declaró a CSO que sus tareas rutinarias de ciberseguridad relacionadas con respuesta a incidentes, detección y flujos de trabajo forenses básicos fueron redirigidas automáticamente de Fable 5 a Opus 4.8 durante las pruebas iniciales. Si esas observaciones se confirman en pruebas más amplias, podría indicar que los clasificadores de Anthropic están identificando de manera general solicitudes relacionadas con ciberseguridad, en lugar de distinguir entre actividad benigna y maliciosa.

Mythos 5 para defensores cibernéticos

Para un grupo selecto de usuarios, Anthropic también está lanzando Claude Mythos 5, el mismo modelo subyacente que Fable 5 pero sin las salvaguardas cibernéticas. A través de Project Glasswing, aproximadamente 200 organizaciones, incluyendo Verizon y Microsoft, tendrán acceso a la versión sin restricciones. Anthropic planea expandir gradualmente el acceso mediante un programa más amplio de acceso confiable desarrollado en consulta con el gobierno de Estados Unidos.

La empresa afirma que Mythos 5 posee las capacidades de ciberseguridad más sólidas de cualquier modelo actualmente disponible, incluyendo la capacidad de descubrir vulnerabilidades de software, ayudar en el desarrollo de exploits y realizar tareas complejas de ciberseguridad de múltiples etapas. Esas capacidades son precisamente las que llevaron a Anthropic a restringir el acceso a versiones anteriores de la tecnología.

Lo que significa para los líderes de seguridad

Para los CISOs y equipos de seguridad, el anuncio plantea preguntas sobre la rapidez con la que las organizaciones pueden adaptarse a sistemas de IA cada vez más capaces. El desafío ya no es simplemente obtener acceso a modelos avanzados, sino integrarlos en las operaciones de seguridad de manera que generen beneficios medibles.

Anthony Grieco, vicepresidente senior y director de seguridad y confianza de Cisco, señaló que las organizaciones deberían centrarse en implementar modelos potentes de manera efectiva mientras mantienen sólidos fundamentos de seguridad. "El ritmo del desarrollo de la IA de frontera está cambiando el panorama de la seguridad en tiempo real, y los defensores no pueden permitirse esperar a que se asiente el polvo", declaró Grieco en un comunicado.

Al mismo tiempo, Grieco advirtió contra ver la IA como un sustituto de las prácticas fundamentales de seguridad. "La IA elevará el techo de lo que los defensores pueden hacer, pero la resiliencia de la seguridad sigue siendo la base que determina si esas ganancias se traducen en protección real", afirmó. Incluso cuando los modelos de IA aceleran la ingeniería de software, el análisis y las operaciones de seguridad, las organizaciones aún necesitan ejecutar fundamentos como la aplicación de parches, la autenticación multifactor, la segmentación de redes y las arquitecturas de confianza cero.

Las acciones de Anthropic, que no cotizan públicamente, no tienen un impacto directo en el mercado. Pero el lanzamiento presiona a los rivales OpenAI y Google para igualar las capacidades de clase Mythos mientras mantienen estándares de seguridad comparables. OpenAI anunció su propia presentación confidencial S-1 el lunes, y SpaceX, que incluye a xAI de Elon Musk, comenzará a cotizar en el Nasdaq esta semana.

Este artículo es solo con fines informativos y no constituye asesoramiento de inversión.