알리바바 Qwen 3.7 Max, 코딩 부문 세계 2위 등극

알리바바의 최신 플래그십 모델인 Qwen 3.7-Max가 글로벌 Code Arena 프로그래밍 리더보드에서 2위를 확보하며 서구 중심의 AI 환경에 직접적인 도전장을 내밀고, 풀스택 수직 계열화 AI 솔루션에 대한 회사의 막대한 투자를 입증했습니다.

이 성과는 알리바바 클라우드 컴퓨팅의 리우 웨이광 수석 부사장이 명명한 "중국의 AI 팩토리"의 핵심 구성 요소입니다. 이 전략은 독자적인 모델을 T-Head Zhenwu M890 AI 가속기를 포함한 회사의 자체 하드웨어와 결합하여, 알리바바가 기업 시장에서 경쟁 우위를 점할 수 있도록 설계된 폐쇄 루프 시스템을 구축합니다.

5월 26일, Qwen 3.7-Max는 Code Arena 벤치마크에서 1541점을 기록하여 GPT-5.5 및 Gemini-3.5-Flash와 같은 주요 모델들을 앞질렀습니다. 이 점수로 알리바바의 프로그래밍 능력은 Anthropic의 Claude 시리즈 모델에 이어 2위에 올랐으며, 코드 생성 및 이해 분야에서 글로벌 AI 개발의 최상위권에 Qwen을 확고히 자리매김하게 했습니다.

투자자들에게 이 벤치마크 결과는 단순한 숫자 그 이상입니다. 이는 클라우드 및 AI 인프라에 대한 알리바바의 3년간 530억 달러 투자가 최첨단 경쟁력을 갖춘 제품을 만들어내고 있다는 증거입니다. 자체 국산 칩에서 구동되는 최고 수준의 모델을 제공할 수 있는 역량은 특히 서구 하드웨어 접근이 복잡한 상황에서 중국 내 막대한 기업 수요를 확보할 수 있는 유리한 고지를 점하게 합니다.

수직 계열화된 "AI 팩토리"

Qwen 3.7-Max의 이야기는 구동되는 하드웨어와 떼려야 뗄 수 없습니다. 알리바바 클라우드 서밋에서 공개된 이 모델은 Zhenwu M890 AI 가속기 및 Panjiu AL128 랙 스케일 서버와 함께 세 부분으로 구성된 "AI 팩토리" 스택의 일부로 제시되었습니다. 이러한 소프트웨어와 독자 하드웨어의 통합은 알리바바의 핵심 전략적 강점입니다. 회사는 M890 칩이 원시 사양 면에서는 서구의 선도적인 설계에 뒤처지지만, 중국 시장에서 수출 규제를 받는 엔비디아 칩의 "신뢰할 수 있는 대체재"라고 주장합니다.

이 통합 스택의 위력을 증명하기 위해 알리바바는 Qwen 3.7-Max가 Zhenwu M890 플랫폼에서 35시간 동안 자율적으로 실행된 내부 시연 결과를 보고했습니다. 실행 도중 모델은 구동 중인 칩 자체의 소프트웨어를 반복적으로 최적화하기 위해 1,158회의 도구 호출을 수행했습니다. 비록 자가 보고된 결과이지만, 이는 알리바바의 전략적 목표를 잘 보여줍니다. 즉, 단순히 작업을 수행하는 것을 넘어 하드웨어의 효율성까지 개선할 수 있는 AI를 만드는 것이며, 이는 타사 칩에 의존하는 회사들은 도달할 수 없는 재귀적 루프입니다.

산문이 아닌 난제 해결을 위한 설계

Qwen 3.7-Max의 강점은 어렵고 구조화된 작업에 집중되어 있습니다. Arena 리더보드의 수학 부문에서 글로벌 7위를 기록했으며, 대학원 수준의 추론 벤치마크인 GPQA Diamond에서 92.4점을 획득했습니다. 한 테스트에서는 경쟁 모델이 멈추거나 오답을 낸 19차 딕슨 다항식 문제를 정확히 해결했습니다. 수학, 코딩 및 에이전트 역량(긴 일련의 행동을 수행하는 능력)에 대한 이러한 집중은 자동화된 소프트웨어 개발 및 복잡한 재무 보고와 같은 고부가가치 기업 워크플로우에 모델을 적합하게 만듭니다.

하지만 이 모델은 창의적인 파트너라기보다는 효율적인 일꾼에 가깝습니다. 창의적 글쓰기 테스트에서 모델의 출력물은 "날카롭고" "효율적"이지만, 표현력이 더 풍부한 모델들의 "풍부함"이나 "다층적인 내면 묘사"는 부족하다는 평가를 받았습니다. 이는 의도적인 설계 선택입니다. 알리바바의 타겟은 소설가가 아니라 복잡하고 논리적인 문제를 해결하기 위한 신뢰할 수 있는 도구가 필요한 개발자와 기업입니다.

투자자 주의사항 및 시장 접근성

인상적인 벤치마크에도 불구하고 몇 가지 요인이 투자자들의 즉각적인 열기를 가라앉힐 수 있습니다. 플래그십 모델인 Qwen 3.7-Max는 오픈 소스로 공개되지 않으며, 최고의 모델을 수익화하려는 알리바바의 전략을 유지할 것입니다. 전체 API 액세스는 아직 출시 중이며, 가격은 경쟁력을 갖출 것으로 예상되지만 확정되지 않았습니다. 또한 독립적인 분석에 따르면, 모델의 높은 정확도는 일부 벤치마크에서의 낮은 시도율에서 부분적으로 기인합니다. 확신이 없을 때 답변하지 않는 방식을 택해 동급 모델 중 환각률이 가장 낮게 나타난 것입니다.

글로벌 기업들의 경우 알리바바의 클라우드 서비스를 이용하는 데 있어 중국의 2017년 국가정보법의 적용을 받습니다. 이 법은 중국 조직이 "국가 정보 활동을 지원, 보조 및 협력"해야 한다고 명시하고 있습니다. 강제적인 데이터 접근 사례가 기록된 바는 없으나, 민감한 데이터를 다루는 기업들에게 이러한 법적 프레임워크는 구조적 리스크로 남아 있습니다.

본 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.