오픈소스 AI, 격차 3개월로 좁혀…4개 모델이 2026년 재편

오픈라우터(OpenRouter)의 2026년 6월 분석에 따르면, 오픈소스 AI 모델이 폐쇄형 프론티어 시스템과의 성능 격차를 단 3개월 수준으로 좁혔다. 4개의 모델이 이제 오픈AI(OpenAI) 및 앤트로픽(Anthropic)의 제품과 극히 일부의 비용으로 경쟁하고 있다.

"지난 18개월 동안 오픈 모델과 클로즈드 모델 간의 격차는 3~6개월 수준에서 안정화되었으며, 폐쇄형 연구소가 앞서 나가고 있다는 징후는 전혀 없다"고 오픈라우터는 보고서에서 밝혔다. 이 보고서는 2026년 가장 영향력 있는 4개의 오픈웨이트(open-weight) 공개 모델을 선정했다.

딥시크 V4 플래시(DeepSeek V4 Flash)는 비용 효율성에서 선두를 달린다. 4월 MIT 라이선스로 공개된 2,840억 파라미터의 Mixture-of-Experts 모델로, SWE-bench Verified에서 79%의 점수를 기록하며 Pro 변종과의 차이가 1.6포인트에 불과하다. 출력 가격은 토큰 100만 개당 28센트로, 오픈AI의 GPT-5.5 대비 약 150분의 1 수준이다. GLM 5.2는 중국 Z.ai가 6월 중순에 공개한 모델로, 아티피셜 애널리시스(Artificial Analysis)의 인텔리전스 지수(Intelligence Index)에서 51점을 기록하며 오픈소스 리더보드 1위에 올랐다. 현재 사용이 금지된 앤트로픽의 페이블 5(Fable 5)에 불과 5점 차이로 뒤진다. 엔비디아(Nvidia) 하드웨어 없이 화웨이(Huawei) 어센드 910B 칩 10만 개로 전량 훈련된 7,440억 파라미터 모델은 SWE-bench Pro에서 62.1점을 기록, GPT-5.5의 58.6점을 앞질렀다.

이러한 수렴 현상은 직접적인 투자 함의를 지닌다. 오픈라우터의 가격 비교에 따르면, 코딩 및 에이전틱(agentic) 워크플로를 폐쇄형 API에서 오픈웨이트 모델로 전환하는 기업은 추론 비용을 50~150배 절감할 수 있다. 이러한 역학은 오픈AI와 앤트로픽의 가격 결정력을 위협하는 동시에 자체 호스팅 배포를 지원하는 인프라 제공업체에 혜택을 제공한다. 또한 GLM 5.2가 워싱턴이 앤트로픽에 외국인을 위한 페이블 5 접근을 제한하도록 명령한 같은 주에 등장했다는 점에서, 미국 수출 통제의 전략적 가치에 대한 의문을 제기한다.

오픈라우터는 딥시크 V4 플래시가 개발자들이 앤트로픽이나 오픈AI 시스템의 대체재로 에이전틱 워크플로에 직접 연동하는 최초의 오픈웨이트 모델이 되었다고 밝혔다. 플래시 변종은 Pro 버전의 코딩 성능 대부분을 유지(79% 대 80.6%, SWE-bench Verified 기준)하면서, GPT-5.5 대비 출력 비용을 150분의 1 수준으로 낮췄다. 딥시크는 5월 할인 가격을 영구화하면서 프론티어 인텔리전스 등급에서 가격 전쟁을 확고히 했다. 단점으로는 이 모델이 비정상적으로 구체적인 프롬프트를 필요로 하며 창작 글쓰기와 톤 제어에서 성능이 저조해 콘텐츠 생성 작업에서 활용도가 제한된다는 점이다.

GLM 5.2의 등장은 지정학적 무게를 지녔다. 미 상무부는 6월 12일, 앤트로픽이 반박한 제일브레이크 취약점을 이유로 앤트로픽에 모든 외국인을 대상으로 페이블 5 및 미토스 5(Mythos 5)를 비활성화하도록 명령했다. Z.ai는 5일 후 GLM 5.2를 MIT 라이선스로 공개했으며, 전 세계 개발자가 다운로드하여 자체 호스팅할 수 있어 향후 어떤 수출 명령에도 영향을 받지 않는다. 블라인드 인간 투표를 기반으로 한 Elo 스타일 리더보드인 코드 아레나(Code Arena)에서 GLM 5.2는 1,595점으로 전체 2위, 페이블 5 제거 이후 현재 사용 가능한 모든 모델 중 1위를 기록했다. 디자인 아레나(Design Arena)에서는 단독 1위를 차지했다. 남아있는 격차는 가장 어려운 추론 벤치마크에서다. 데이터 오염에 강한 유체 추론을 테스트하는 ARC-AGI-2에서, 최고 중국 모델은 11.8%에 그쳐 선두 미국 연구소에 크게 뒤진다.

미니맥스 M3(MiniMax M3)는 다른 틈새를 채운다. 이 4개 모델 중 텍스트, 이미지, 차트 및 비디오를 기본적으로 이해하는 유일한 모델로, 화면 판독, UI 자동화 또는 시각적 문서 파싱이 필요한 에이전틱 워크플로의 기본 선택지가 된다. 인텔리전스 지수 44점으로 딥시크 V4 Pro와 동률이며, 실제 에이전틱 작업에서 클로드 소네트 4.6(Claude Sonnet 4.6)과 거의 비슷한 수준이다. 가격은 입력 토큰 100만 개당 9.8센트, 출력 1.21달러로, 구글 제미니 플래시(Google Gemini Flash)를 멀티모달 작업에서 밑돈다. 다만 커뮤니티 라이선스는 상업적 사용에 출처 표시를 요구하고 대규모 제품에는 서면 승인이 필요하다.

엔비디아의 네모트론 3 울트라(NVIDIA Nemotron 3 Ultra)는 미국 기업의 대항마 역할을 한다. 5,500억 파라미터의 Mamba-2와 트랜스포머(Transformer) 하이브리드 모델로, 인텔리전스 지수 48점으로 GLM 5.2에 원시 벤치마크에서 뒤지지만, 엔비디아 자체 하드웨어 스택에서 뛰어난 배포 효율성을 제공한다. 엔비디아는 모델 가중치뿐만 아니라 훈련 데이터, 레시피, 평가 도구 및 강화학습 인프라를 OpenMDW 라이선스로 오픈소스화했다. 이는 자사 칩과 소프트웨어 생태계에 대한 수요를 촉진하기 위한 전략이다. 이 모델의 NVFP4 정밀도와 다중 토큰 예측 지원은 최고 벤치마크 점수보다 배포 속도, 데이터 통제 및 벤더 안정성을 우선시하는 기업에 가장 실용적인 선택지가 된다.

투자자에게 오픈소스 수렴 현상은 양방향 베팅을 창출한다. 엔비디아와 같은 기업은 오픈웨이트 채택이 추론 하드웨어 수요를 촉진함에 따라 간접적으로 혜택을 본다. 네모트론은 독립형 제품인 동시에 엔비디아 AI 스택의 판매 수단이기도 하다. 그러나 가격 붕괴는 폐쇄형 API 제공업체의 수익 모델을 위협한다. 오픈AI와 앤트로픽은 오픈 대안이 150분의 1 비용으로 비교 가능한 코딩 성능을 제공할 때 프리미엄 가격을 정당화해야 하는 압력에 직면한다. 애저(Azure)에서 오픈AI 모델을 호스팅하는 마이크로소프트는 오픈웨이트 모델로 전환하는 기업이 관리형 인프라로 애저를 선택할 경우 상쇄 수요를 포착할 수 있다. 핵심 위험은 오픈소스 모델이 프로덕션 환경에서 기업 안전 및 규정 준수 테스트를 통과하지 못해 채택 속도가 늦어지고, 폐쇄형 모델의 가격 결정력이 유지될 가능성이다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.