펄서 16B, 파라미터 절반으로 30B급 추론 성능 구현

멀티버스 컴퓨팅(Multiverse Computing)의 오픈소스 '펄서 16B(Pulsar 16B)'가 유사 모델 대비 절반에 가까운 파라미터 수로 최첨단 추론 성능을 구현, 엔비디아의 가속 인프라에서 검증을 마쳤다.

멀티버스 컴퓨팅의 펄서 16B는 총 161.5억 개의 파라미터와 31억 개의 활성 파라미터만으로 300억 파라미터급 모델의 추론 성능을 구현한다. 이는 컴퓨팅 풋프린트를 절반 가까이 줄이면서도 수학, 과학, 코딩 작업 전반의 벤치마크 점수를 유지한 결과다.

"로컬에서 고급 AI를 실행하려면 전통적으로 모델 크기나 성능에서 타협이 불가피했습니다."라고 멀티버스 컴퓨팅의 공동창업자 겸 CEO 엔리케 리자소(Enrique Lizaso)는 말했다. "펄서 16B를 통해 우리가 입증한 것은 클라우드 규모의 인프라 오버헤드 없이도 최첨단 추론을 배포할 수 있으며, 기업이 실제로 경제적으로 운영하고 확장할 수 있는 풋프린트를 제공한다는 점입니다."

엔비디아의 네모트론 3 나노(Nemotron 3 Nano) — Mamba2-트랜스포머와 Mixture-of-Experts 아키텍처의 하이브리드 — 의 압축 버전을 기반으로 구축된 펄서 16B는 수학 추론 벤치마크 AIME 2025에서 87.22점을 기록했다. 이는 압축되지 않은 316억 파라미터 기본 모델과 0.1점 차이에 불과하며, gpt-oss-20B보다 15점 높은 수치다. 박사 수준 과학 벤치마크인 GPQA-다이아몬드에서는 71.41점을 기록, 압축되지 않은 모델과 동등한 성능을 보였고 gpt-oss-20B의 58.88점을 크게 앞질렀다. 또한 지시 수행 능력에서 gpt-oss-20B를 14점, 함수 호출에서 11점 앞서는 성과를 보였다.

이러한 효율성 개선은 곧바로 낮은 배포 비용으로 이어진다. 32개의 동시 요청을 처리하는 엔비디아 블랙웰 GPU에서 FP8 정밀도로 구동된 펄서 16B는 초당 4,808개의 시스템 처리량 토큰을 제공, 기본 모델의 초당 3,363개 토큰 대비 43% 향상된 성능을 기록했다. 첫 토큰까지의 시간은 2.18초에서 1.24초로 단축됐다. 고동시성 에이전트 워크플로우를 운영하거나 장문 문서를 지속적으로 처리하는 기업의 경우 GPU 조달 및 에너지 비용 절감 효과가 상당할 것으로 예상된다.

메모리 및 추론 이점

펄서 16B는 네모트론-3-나노-30B-A3B 기본 모델과 비교해 지원되는 모든 정밀도(BF16, FP8, NVFP4)에서 모델 가중치 메모리를 크게 절감했다. 멀티버스 컴퓨팅의 컴팩티파이AI(CompactifAI) 기술과 엔비디아의 모델 옵티마이저(Model Optimizer) 및 메가트론 브리지(Megatron Bridge) 라이브러리를 결합해 이루어진 이번 압축은 처음부터 재훈련할 필요가 없었다. 대신, 회사는 훈련 중 학습된 추론 행동을 유지하면서 훈련된 네트워크 내의 수학적 중복성을 식별하고 제거했다.

공격적인 압축에서 가장 먼저 희생되곤 하는 장문맥(Long-context) 성능도 그대로 유지됐다. Needle-in-a-haystack 검색은 10만 토큰 지점까지 양쪽에서 사실상 완벽하게 유지됐으며, 펄서 16B는 LongBench, AA-LCR, RULER 제품군 및 NIAH 변형 전반에 걸친 멀티버스 컴퓨팅의 평가 결과, 확장된 맥락 길이에서 더 까다로운 RULER 작업에서도 압축되지 않은 기본 모델과 밀접하게 일치하는 성능을 보였다.

경쟁 구도에 미치는 영향

이번 출시는 gpt-oss-20B 및 유사 중간 규모 아키텍처를 개발하는 다른 오픈소스 모델 개발자들에게도 상응하는 효율성 개선을 입증할 압력을 가하고 있다. 엔비디아 입장에서는 이번 협업이 추론에 최적화된 블랙웰 하드웨어의 가치를 강화해준다. 동일한 GPU에서 43% 더 빠르게 실행되는 모델은 엔비디아 인프라를 평가하는 기업 고객들에게 더 강력한 투자 수익률 사례를 만들어준다. 엔비디아의 인셉션(Inception) 프로그램 회원인 멀티버스 컴퓨팅은 이베르드롤라(Iberdrola), 보쉬(Bosch), 캐나다 중앙은행(Bank of Canada)을 포함한 100곳 이상의 글로벌 고객을 보유하고 있으며, 데이터가 온프레미스 인프라를 절대 벗어나지 않는 소버린 AI 배포를 원하는 규제 산업의 수요를 포착할 수 있는 위치에 있다.

펄서 16B는 아파치 2.0 라이선스 하에 허깅페이스(Hugging Face)에서 이용 가능하다. 이 모델은 싱글 노드 설정, 온프레미스 환경 및 최첨단 추론 비용이 이전에는 감당하기 어려웠던 지연 시간에 민감한 시스템을 위해 설계되었다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.