Google 將 Gemini 3.5 Pro 推出時間延至 7 月以進行更多測試

Google 的 Gemini 3.5 Pro 具備 200 萬 token 的上下文窗口與 Deep Think 推理功能，將延至 7 月才上線，原因是公司需要納入早期測試者的反饋——在市場劇烈波動之際，這項延遲可能讓 OpenAI 與 Anthropic 有機可乘。

Google 決定將 Gemini 3.5 Pro 延至 7 月推出，等於給 OpenAI 與 Anthropic 更多時間鞏固其市場地位。該模型具備 200 萬 token 的上下文窗口以及 Deep Think 推理模式，原先被視為有望重塑競爭格局。Google 此前目標是 6 月發布，執行長 Sundar Pichai 在 5 月 19 日的 I/O 開發者大會上曾向開發者表示，該模型「下個月」就會登場。

「多出的幾週讓我們能納入早期測試者的實際使用案例，並處理 Flash 3.5 的反饋意見，」一位知情人士表示，並證實外界對 Flash 的 token 消耗率的批評影響了 Pro 版本的開發週期。

Gemini 3.5 Pro 將 Flash 的 100 萬 token 上下文翻倍至 200 萬——足以在一次呼叫中容納約 1,500 頁的技術文件或整個企業的程式碼庫。這比 Anthropic 的 Fable 5（25.6 萬 token）高出八倍，也超過 OpenAI GPT-5 標準層級（12.8 萬 token）的 15 倍以上。其 Deep Think 鏈式思維推理模式與 Fable 5 的延伸思考以及 OpenAI 的 o3 屬於同一能力類別，但將被限制在 Google 每月 250 美元的 Ultra 訂閱服務中，而非以用量計價的 API 方式提供。多模態輸入在發布時支援文字和圖片，影片與音訊則預計在後續更新中推出。

此次延遲發生在 Google 競爭態勢異常有利的時間點。Fable 5 自 6 月 12 日起因美國政府的出口管制指令而受到限制，該指令與 Anthropic Mythos 安全事件相關。不過該模型已於 6 月 21 日在 Anthropic Android 應用程式中重新上線，但 API 與網頁存取仍僅限非政府使用者。與此同時，OpenAI 在同一週面臨 42 州檢察長發起的調查，以及 IPO 揭露要求，為其產品路線圖增添了企業端的不確定性。

200 萬 token 上下文能實現什麼

上下文窗口才是真正的差異化關鍵。目前多數生產級別的前沿模型運作於 12.8 萬至 25.6 萬 token 之間，迫使開發者建立檢索增強生成（RAG）管線，將文件分段並依序檢索相關區塊。200 萬 token 的模型則消除了許多應用場景中的此類架構需求：完整儲存庫的程式碼分析、超過 50 萬 token 的合約組合法律文件審查，以及當前模型無法承載的多輪企業對話狀態。

定價帶來的影響相當重大。以 Gemini 3.1 Pro 每 100 萬輸入 token 2 美元的費率計算，一次完整的 200 萬 token 呼叫僅輸入成本就要 4 美元——對於簡單任務來說價格不菲，但相較於維護自訂 RAG 基礎設施而言則極具成本優勢。Google 尚未公布 Gemini 3.5 Pro 的定價，但超過 20 萬 token 後的上下文附加費結構將決定大規模上下文應用是否具備經濟可行性。

Deep Think 與訂閱門檻問題

Deep Think 在生成回應前延長模型的思考時間，從而在數學、邏輯與結構化推理任務上取得更佳表現。內部數據顯示，在 SWE-bench Verified 基準測試中，該模型較 3.1 世代提升了 10 至 15 個百分點，不過這些數據尚未經外部基準驗證。

將延伸推理功能鎖定在每月 250 美元的訂閱服務中，而非以用量計價的 API 方式提供，這對於最重視推理品質的開發者族群而言形成了障礙。擁有固定席位的企業客戶可以吸收這項成本，但個人開發者與建構推理密集型應用程式的新創公司則無力負擔。Google 在先前 Gemini 系列模型上的做法是先在訂閱層級推出新功能，之後再透過 API 發布——Deep Think 很可能也會遵循這條路徑。

競爭格局與投資人影響

Google、OpenAI 與 Anthropic 之間的三方競爭，從未像現在這樣真正充滿懸念。每家供應商都有顯著的優勢，也都有明顯的制約。對 Alphabet 而言，Gemini 3.5 Pro 的發布是將其承諾投入 AI 基礎設施的超過 500 億美元年度資本支出變現的關鍵。Nvidia 的 H100 與 B200 GPU 驅動了絕大多數的訓練運算，無論哪家模型供應商贏得市場，Nvidia 都將從中受益。

如果 Google 對 200 萬 token 上下文採取固定費率而非倍數附加費的定價策略，將大幅改變大型上下文應用的成本模型。GA 正式發布時公布的基準測試數字，其重要性遠不如定價頁面——前沿模型的能力已相當接近，在決定大規模採用時，成本與上下文大小的影響力遠超過 2 到 3 個百分點的基準測試差異。

本文僅供參考，不構成投資建議。