Pulsar 16B, 30 milyar parametre seviyesinde akıl yürütmeyi yarı parametre sayısıyla sunuyor

Multiverse Computing'in açık kaynaklı Pulsar 16B'si, Nvidia'nın hızlandırılmış altyapısı üzerinde doğrulanmış olarak, karşılaştırılabilir modellerin kabaca yarı parametre sayısıyla sınır düzeyinde akıl yürütme performansı sunuyor.

Multiverse Computing'in Pulsar 16B'si, toplam 16,15 milyar parametre ve 3,1 milyar aktif parametre ile 30 milyar parametreli modellerin akıl yürütme performansını eşleştirerek, matematik, bilim ve kodlama görevlerinde kıyaslama puanlarını korurken hesaplama ayak izini neredeyse yarıya indiriyor.

"Gelişmiş yapay zekayı yerel olarak çalıştırmak, tarihsel olarak model boyutu veya performanstan ödün vermeyi gerektiriyordu," dedi Multiverse Computing'in kurucu ortağı ve CEO'su Enrique Lizaso. "Pulsar 16B ile gösterdiğimiz şey, sınır düzeyinde akıl yürütmenin artık bulut ölçeğinde altyapının getirdiği yük olmadan, işletmelerin ekonomik olarak çalıştırıp ölçeklendirebileceği bir ayak izinde dağıtılabileceğidir."

Nvidia'nın Nemotron 3 Nano'sunun sıkıştırılmış bir versiyonu üzerine inşa edilen Pulsar 16B, AIME 2025 matematik akıl yürütme kriterinde 87,22 puan alarak, sıkıştırılmamış 31,6 milyar parametreli temel modelin onda bir puan yakınında ve gpt-oss-20B'nin 15 puan önünde yer alıyor. Doktora düzeyinde bir bilim kriteri olan GPQA-Diamond'da 71,41 puan alarak sıkıştırılmamış modeli yakalıyor ve gpt-oss-20B'nin 58,88'ini geride bırakıyor. Model ayrıca talimat takibinde gpt-oss-20B'yi 14 puan, fonksiyon çağrısında ise 11 puan geçiyor.

Verimlilik kazancı doğrudan daha düşük dağıtım maliyetlerine dönüşüyor. 32 eşzamanlı isteği işleyen bir Nvidia Blackwell GPU'da FP8 hassasiyetindeki Pulsar 16B, saniyede 4.808 token sistem çıktısı sunarak, temel modelin saniyede 3.363 tokenına kıyasla %43'lük bir artış sağlarken, ilk tokena geçiş süresini 2,18 saniyeden 1,24 saniyeye düşürüyor. Yüksek eşzamanlılık gerektiren ajan tabanlı iş akışları çalıştıran veya sürekli olarak uzun belgeleri işleyen işletmeler için GPU tedarik ve enerji maliyetlerindeki tasarruf önemli olabilir.

Bellek ve Çıkarım Avantajları

Pulsar 16B, Nemotron-3-Nano-30B-A3B temel modeline kıyasla desteklenen tüm hassasiyetlerde (BF16, FP8 ve NVFP4) model ağırlık belleğinde önemli azalmalar sağlıyor. Multiverse Computing'in CompactifAI teknolojisinin Nvidia'nın Model Optimizer ve Megatron Bridge kütüphaneleriyle kombinasyonu kullanılarak elde edilen sıkıştırma, sıfırdan yeniden eğitim gerektirmedi. Bunun yerine şirket, eğitim sırasında öğrenilen akıl yürütme davranışlarını korurken, eğitilmiş ağ içindeki matematiksel fazlalığı tespit etti ve kaldırdı.

Agresif sıkıştırmanın ilk kurbanı olan uzun bağlam performansı bozulmadan kalıyor. Multiverse Computing'in LongBench, AA-LCR, RULER paketi ve NIAH varyantları üzerindeki değerlendirmelerine göre, samanlıkta iğne araması (needle-in-a-haystack) 100.000 token işaretinin her iki tarafında da neredeyse mükemmel kalıyor ve Pulsar 16B, genişletilmiş bağlam uzunluklarında daha zor RULER görevlerinde sıkıştırılmamış temel modeli yakından takip ediyor.

Rekabetçi Etkiler

Bu sürüm, gpt-oss-20B ve benzer orta ölçekli mimarilerin arkasındakiler de dahil olmak üzere diğer açık kaynak model geliştiricilerine karşılaştırılabilir verimlilik kazanımları göstermeleri konusunda baskı oluşturuyor. Nvidia için bu iş birliği, çıkarım için optimize edilmiş Blackwell donanımının değerini pekiştiriyor: Aynı GPU'da %43 daha hızlı çalışan bir model, Nvidia'nın altyapısını değerlendiren kurumsal müşteriler için daha güçlü bir yatırım getirisi senaryosu oluşturuyor. Nvidia'nın Inception programının bir üyesi olan Multiverse Computing, Iberdrola, Bosch ve Kanada Merkez Bankası dahil olmak üzere 100'den fazla küresel müşteriye hizmet veriyor ve verilerin hiçbir zaman şirket içi altyapıdan çıkmadığı egemen yapay zeka dağıtımları arayan düzenlemeye tabi endüstrilerden gelen talebi karşılamak için konumlanıyor.

Pulsar 16B, Apache 2.0 lisansı altında Hugging Face'te mevcuttur. Model, sınır düzeyinde akıl yürütmenin maliyetinin daha önce caydırıcı olduğu tek düğümlü kurulumlar, şirket içi ortamlar ve gecikmeye duyarlı sistemler için tasarlanmıştır.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.