中國與美國前沿AI模型之間的差距已從數年縮小至數月,智譜與DeepSeek的開放權重系統在基準測試中取得的分數,已與最佳封閉模型相距不遠。
中國與美國前沿AI模型之間的差距已從數年縮小至數月,智譜與DeepSeek的開放權重系統在基準測試中取得的分數,已與最佳封閉模型相距不遠。

中國與美國前沿AI模型之間的差距已從數年縮小至數月,智譜與DeepSeek的開放權重系統在基準測試中取得的分數,已與最佳封閉模型相距不遠。
馬斯克預測,中國大型語言模型可能在2027年第一季達到與Anthropic的Fable相當的水準,他是在回應一則關於智譜AI的GLM-5.2正在縮小差距的社群媒體貼文。根據中國官方媒體先前引述的言論,Google DeepMind執行長Demis Hassabis也曾表示,中國AI模型可能「僅落後海外同業數月」。
「進步的速度才是關鍵。」追蹤AI基礎設施的Edgen分析師Rachel Kim表示,「中國的實驗室正在將過去需要數年才能完成的事情壓縮到幾個季度內,而且他們是在國產晶片上完成的。」
智譜AI於6月16日以MIT授權釋出GLM-5.2,使其可用於商業用途且完全免費。該模型在Terminal-Bench 2.1上得分81.0,較GLM-5.1的62.0大幅躍升——單一次小版本更新即提升31%。在SWE-bench Pro上,其得分為62.1,略勝GPT-5.5,而在FrontierSWE上則僅落後Anthropic的Opus 4.8一個百分點。該模型擁有100萬token的上下文窗口,每個token的收費約為美國領先封閉模型的六分之一。
DeepSeek的V4-Pro是一款1.6兆參數的混合專家模型,每次token激活490億個參數,在SWE-bench Verified上達到80.6%的成績。每百萬輸出token收費約87美分,約為前沿模型定價的三十分之一。其權重為開放源碼。阿里巴巴的Qwen系列今年1月在Hugging Face上的下載量突破10億次,超越Meta的Llama,成為全球下載量最大的開放模型系列。
三次發布,四個月內
中國模型發布的節奏充分展現了這一速度。GLM-5於2月問世。GLM-5.1緊隨其後於3月推出,將其內部編碼分數從35.4提升至45.3——提升幅度達28%。GLM-5.2於6月發布,Terminal-Bench的成績幾乎再次翻倍。每一步都是在國產晶片上完成訓練,有跡象顯示整套技術棧現已不再依賴Nvidia。
2023年,開放模型落後封閉前沿兩年。到了2024年,差距縮小至一年。2025年,差距變為六個月。如今,在對工程工作至關重要的基準測試上,差距已縮短至數週。
價值將流向何處
隨著模型權重趨近於大宗商品定價,經濟學邏輯正轉向推理運算與基礎設施。根據業界估算,推理運算如今約占所有AI算力的三分之二,高於2023年的三分之一。Nebius Group報告指出,一名客戶在其平台上使用開放模型後,推理成本降低了26倍。Cloudflare現在從其邊緣網路提供超過70種模型。
微軟執行長Satya Nadella在6月14日的一篇文章中闡述了這一轉變,主張企業必須同時建立「人力資本」和「代幣資本」——即自己擁有的AI能力,而非租用的。他對員工的警告是:避免將每一項任務都導向昂貴的前沿模型,而應使用更便宜、更專業化的模型來完成。
對投資人而言,差距的縮小引發了關於資料中心產業高達1760億美元潛在低估折舊問題的質疑,此議題已由Michael Burry提出。如果前沿等級的模型可以在售價4700美元的DGX Spark桌上型電腦——Nvidia的Grace Blackwell機器,配備128GB統一記憶體——上運行,那麼支撐五年折舊計算的集中式推理需求曲線,其增長速度可能比試算表所假設的更加緩慢。美國2026年計畫興建的資料中心,約有一半已面臨延遲或取消;而預測市場認為,在2027年之前聯邦政府對大型資料中心激勵措施實施暫停的機率約為三分之一。
本文僅供資訊參考,不構成投資建議。