Anthropic'in Fable 5'i 19 gün sonra aşırı koruyucu önlemlerle geri döndü

Anthropic'in en yetenekli yapay zeka modeli yeniden çevrimiçi, ancak aceleyle dağıtılan bir güvenlik sistemi zararsız kod taleplerini işaretleyerek kullanıcıları daha zayıf bir modele yönlendiriyor.

Anthropic, 19 günlük bir askıya almanın ardından 1 Temmuz'da Fable 5'e erişimi geri yükledi, ancak yeni bir güvenlik sınıflandırıcısı rutin kodlama görevlerinde yanlış pozitif sonuçlar tetikleyerek geliştiricileri daha az yetenekli olan Opus 4.8'e yönlendiriyor. Şirketin halka açık ilk Mythos sınıfı sistemi olan model, Trump yönetiminin Amazon liderliğindeki bir keşif sonrasında güvenlik önlemlerini aşan bir komut tekniğinin ardından ihracat kontrolleri uygulamasıyla Haziran ayında çevrimdışına alınmıştı.

"Yeni sınıflandırıcı, günlük programlama ve hata ayıklama görevlerinde istediğimizden daha yüksek bir yanlış pozitif oranına sahip," dedi Anthropic, yeniden konuşlandırmayı duyuran bir blog yazısında. Ticaret Bakanlığı gerekliliklerine uymak için eklenen güvenlik önlemi, riskli olduğunu düşündüğü talepleri durduruyor ve kullanıcıyı uyarmadan bunları Opus 4.8'e yönlendiriyor.

7 Temmuz'a kadar uygun Pro, Max, Team ve seçili Enterprise aboneleri, ek kredi yakmadan önce haftalık kullanım kotalarının %50'sine kadarını Fable 5'e ayırabilir. Model, kredileri Opus 4.8'den daha hızlı tüketerek kullanıcı hayal kırıklığını artırıyor. 7 Temmuz'dan sonra, tüm Fable 5 kullanımı kredi gerektirecek.

Tartışma, yapay zeka güvenlik düzenlemeleri ile ürün kullanılabilirliği arasındaki gerilimi gözler önüne seriyor — kurumsal düzeyde gelişmiş modellerin benimsenmesini yavaşlatabilecek ve geliştiricileri merkezi güvenlik önlemleri olmadan çalışan DeepSeek ve diğer sağlayıcılardan açık ağırlıklı alternatiflere yönlendirebilecek bir dinamik.

Ağaçları Dronlardan Ayıramayan Bir Sınıflandırıcı

Reddit'teki bir yer bilimleri doktora öğrencisi, ağaçların ortam sıcaklığını nasıl düşürdüğüne dair araştırma için Fable 5'i kullanmaya çalıştığını anlattı. Sınıflandırıcı talebi işaretledi ve onu Opus 4.8'e yönlendirdi. DJI'nin SDK'sını kullanarak bir drone sürüsünü kontrol etmek için kod istediğinde ise Fable 5 kesintisiz olarak eksiksiz bir çözüm sundu.

"Bu bir güvenlik sistemi değil — rastgele bir kapı," diye yazdı araştırmacı.

Anthropic, yeniden konuşlandırma yazısında sorunu kabul ederek, sınıflandırıcının Amazon araştırmacıları tarafından belirlenen spesifik komut tekniğini vakaların %99'undan fazlasında engellediğini, ancak bunun zararsız taleplerde sık sık yanlış alarm pahasına olduğunu söyledi. Şirket, kaç kullanıcı oturumunun etkilendiğini açıklamadı.

Yanlış pozitif sorunu özellikle zarar verici çünkü Fable 5'in temel gücü karmaşık, çok adımlı kodlama görevlerinde yatıyor. Modeli test eden geliştiriciler, sınıflandırıcı tarafından kesintiye uğratılmadığında, uzun vadeli ajan görevlerinde mevcut herhangi bir genel modelden daha iyi performans gösterdiğini ve SWE-Bench Pro kriterinde %80'in üzerinde puan aldığını bildiriyor. Bir geliştirici, Fable 5'i kullanarak New York silüetini Blender'da 20 dakikada, gerçek bina verilerini herkese açık kaynaklardan çekerek yeniden oluşturdu. Bir diğeri, dört komut kullanarak 173 dolar token maliyetiyle sıfırdan eksiksiz bir oyun inşa etti.

Anthropic Sektör Güvenlik Standartları İçin Bastırıyor

Gelecekteki düzenleyici anlaşmazlıkları önlemek için Anthropic, Amazon, Microsoft ve Google ile birlikte yapay zeka jailbreak ciddiyetini değerlendirmek için standart bir çerçeve oluşturmak üzere çalışıyor. Önerilen sistem, istismarları dört boyutta puanlıyor: yetenek kazanımı, kazanım genişliği, silah haline getirme zorluğu ve keşfedilebilirlik. Yalnızca dört kategorinin tamamında maksimum puan alan istismarlar — örneğin kritik altyapıyı bozabilecek bir teknik — acil müdahale gerektiren en yüksek alarm seviyesini tetikleyecek.

Şirket ayrıca hükümet kurumlarına gelecekteki modellere güvenlik testleri için yayın öncesi erişim vermeyi, güvenlik açığı bilgilerini derhal paylaşmayı ve Fable 5 için bir HackerOne hata ödül programını finanse etmeyi kabul etti. Ticaret Bakanı Howard Lutnick, Anthropic'in "modellerin oluşturduğu güvenlik risklerini proaktif olarak tespit etmeyi ve ele almayı" kabul ettiğini belirten bir mektupta kısıtlamaların kaldırıldığını doğruladı.

Bu olay, kodlama kriterlerinde rekabetçi performans sergileyen ve merkezi güvenlik önlemleri olmadan çalışan DeepSeek'in V4-Pro modeli gibi açık ağırlıklı model sağlayıcılarına fayda sağlayabilir. Yapay zeka benimsenmesi için kilit bir kitle olan geliştiriciler nezdinde Anthropic'in güvenilirliği darbe aldı ve şirketin Fable 5'in yeteneklerinden para kazanma kabiliyeti, sınıflandırıcının yanlış pozitif sorununu çözmeye bağlı. Anthropic, Fable 5'in token başına fiyatlandırmasını açıklamadı ancak kullanım kredilerinin 7 Temmuz'dan sonra geçerli olacağını söyledi.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.