核心要點:
- 阿里巴巴的 Qwen 3.7-Max 在 Code Arena 排行榜上獲得 1541 分,編程能力位居全球第二,超越了 OpenAI 和谷歌的模型。
- 該模型是阿里巴巴「AI 工廠」戰略的核心部分,該戰略將自有模型與自研的震武 M890 AI 加速芯片及服務器基礎設施相結合。
- Qwen 3.7-Max 專為複雜的自主任務設計,在內部測試的單次運行中處理了超過 1,000 次工具調用,標誌著其重點轉向企業級智能體工作流。
核心要點:

阿里巴巴最新的旗艦模型 Qwen 3.7-Max 已在全球 Code Arena 編程排行榜上穩居第二,這標誌著其對西方主導的 AI 格局發起了直接挑戰,同時也驗證了該公司在全棧、垂直整合 AI 解決方案上的巨額投資。
這一成就被阿里巴巴雲計算高級副總裁劉偉光稱為「中國 AI 工廠」的核心組成部分。該戰略將自有模型與公司自研硬件(包括平頭哥震武 M890 AI 加速器)相結合,構建了一個閉環系統,旨在為阿里巴巴在企業市場贏得競爭優勢。
5 月 26 日,Qwen 3.7-Max 在 Code Arena 基準測試中獲得了 1541 分,領先於 GPT-5.5 和 Gemini-3.5-Flash 等知名模型。這一成績使阿里巴巴的編程能力僅次於 Anthropic 的 Claude 系列模型,牢牢確立了 Qwen 在全球 AI 代碼生成與理解領域的頂尖地位。
對於投資者而言,這一基準測試結果不僅是一個數字,更是阿里巴巴三年來在雲和 AI 基礎設施領域投入的 530 億美元已產生具競爭力的前沿產品的證明。公司能夠在自研國產芯片上運行頂級模型,使其能夠捕捉中國境內巨大的企業需求,特別是在獲取西方硬件依然面臨複雜挑戰的背景下。
Qwen 3.7-Max 的故事與其運行的硬件密不可分。該模型在阿里巴巴雲計算峰會上亮相,作為「AI 工廠」三件套之一,與震武 M890 AI 加速器和磐久 AL128 機架級服務器共同展出。這種軟件與自有硬件的整合是阿里巴巴的核心戰略優勢。公司聲稱,儘管 M890 芯片在原始規格上落後於西方領先設計,但在中國市場是受出口管制的英偉達芯片的「可靠替代品」。
為了證明這種集成堆棧的威力,阿里巴巴報告了一項內部演示:Qwen 3.7-Max 在震武 M890 平台上自主運行了 35 小時。運行期間,該模型進行了 1,158 次工具調用,以迭代優化其運行芯片的配套軟件。雖然這些結果為自述數據,但它們展示了阿里巴巴的戰略目標:創造不僅能執行任務,還能提高底層硬件效率的 AI,這是一種依賴第三方芯片的公司無法實現的遞歸反饋環。
Qwen 3.7-Max 的優勢集中在困難、結構化的任務上。它在 Arena 排行榜的數學領域排名全球第七,並在 GPQA Diamond(研究生水平推理基準測試)中獲得了 92.4 分。在一次測試中,它正確解出了一個讓競爭模型死機並產生錯誤答案的 19 次迪克森多項式問題。這種對數學、編程和智能體能力(執行長序列動作的能力)的關注,使該模型適用於自動化軟件開發和複雜財務報告等高價值企業工作流。
然而,該模型與其說是創意夥伴,不如說是一個高效的員工。在創意寫作測試中,其輸出被評價為「凌厲」且「高效」,但缺乏更具表現力模型的「豐富感」和「層級感」。這是一個刻意的設計選擇。阿里巴巴的目標客戶不是小說家,而是需要可靠工具來解決複雜邏輯問題的開發人員和企業。
儘管基準測試數據令人印象深刻,但仍有幾個因素可能抑制投資者的即時熱情。旗艦模型 Qwen 3.7-Max 將不會開源,延續了阿里巴巴將頂級模型變現的策略。API 的全面開放仍在推進中,定價雖然預計具有競爭力,但尚未最終確定。此外,獨立分析顯示,該模型的高準確率部分歸功於在某些基準測試中較低的嘗試率;它在同類產品中幻覺率最低,部分原因在於它在不確定時會選擇不回答。
對於國際企業而言,使用阿里巴巴雲服務受中國 2017 年《國家情報法》的約束。雖然目前尚無強制訪問數據的記錄,但對於處理敏感數據的公司來說,法律框架仍是一個結構性風險。
本文僅供參考,不構成投資建議。