Google dời lịch ra mắt Gemini 3.5 Pro sang tháng 7 để kiểm tra thêm

Gemini 3.5 Pro của Google, với khả năng ngữ cảnh lên tới 2 triệu token và chế độ lập luận Deep Think, sẽ ra mắt vào tháng 7 khi công ty tiếp thu phản hồi từ những người thử nghiệm sớm — sự chậm trễ có nguy cơ nhường đất cho OpenAI và Anthropic trong thời điểm thị trường biến động mạnh.

Quyết định dời lịch phát hành Gemini 3.5 Pro sang tháng 7 của Google giúp OpenAI và Anthropic có thêm thời gian củng cố vị thế, trong khi khả năng ngữ cảnh 2 triệu token và chế độ lập luận Deep Think của mô hình này được kỳ vọng sẽ tái định hình bối cảnh cạnh tranh. Trước đó, công ty đã nhắm mục tiêu ra mắt vào tháng 6, với việc Giám đốc điều hành Sundar Pichai thông báo với các nhà phát triển tại hội nghị I/O ngày 19 tháng 5 rằng mô hình sẽ ra mắt "vào tháng tới".

"Những tuần bổ sung cho phép chúng tôi tích hợp các trường hợp sử dụng thực tế từ những người thử nghiệm sớm và giải quyết phản hồi từ Flash 3.5", một người am hiểu vấn đề cho biết, xác nhận rằng những chỉ trích về tốc độ tiêu thụ token của Flash đã ảnh hưởng đến chu kỳ phát triển của Pro.

Gemini 3.5 Pro tăng gấp đôi ngữ cảnh 1 triệu token của Flash lên 2 triệu — đủ để chứa khoảng 1.500 trang tài liệu kỹ thuật hoặc toàn bộ mã nguồn doanh nghiệp trong một lần gọi duy nhất. Con số này gấp 8 lần ngữ cảnh 256.000 token của Fable 5 (Anthropic) và hơn 15 lần tiêu chuẩn 128.000 token của GPT-5 (OpenAI). Chế độ lập luận chuỗi tư duy Deep Think của nó nhắm đến cùng phân khúc khả năng với tư duy mở rộng của Fable 5 và o3 của OpenAI, mặc dù nó sẽ bị khóa sau gói đăng ký Ultra trị giá 250 USD mỗi tháng thay vì được cung cấp với mức giá API dựa trên mức sử dụng. Đầu vào đa phương thức hỗ trợ văn bản và hình ảnh khi ra mắt, với video và âm thanh dự kiến có trong bản cập nhật tiếp theo.

Sự chậm trễ diễn ra vào thời điểm tương đối thuận lợi cho vị thế cạnh tranh của Google. Fable 5 đã bị hạn chế kể từ ngày 12 tháng 6 sau chỉ thị kiểm soát xuất khẩu của chính phủ Mỹ liên quan đến sự cố bảo mật Anthropic Mythos, mặc dù nó đã xuất hiện trở lại trong ứng dụng Android của Anthropic vào ngày 21 tháng 6 với quyền truy cập API và web vẫn bị giới hạn cho người dùng không phải chính phủ. Trong khi đó, OpenAI đang phải đối mặt với cuộc điều tra của tổng chưởng lý 42 tiểu bang được khởi động cùng tuần và các yêu cầu công bố thông tin IPO đã làm gia tăng sự không chắc chắn của doanh nghiệp về lộ trình sản phẩm.

Khả năng ngữ cảnh 2 triệu token cho phép điều gì

Cửa sổ ngữ cảnh là yếu tố khác biệt thực sự. Hầu hết các mô hình tiên tiến trong sản xuất đều hoạt động ở mức 128.000 đến 256.000 token, buộc các nhà phát triển phải xây dựng các pipeline tạo sinh tăng cường truy xuất để chia nhỏ tài liệu và truy xuất các phần liên quan một cách tuần tự. Một mô hình 2 triệu token loại bỏ kiến trúc đó cho nhiều trường hợp sử dụng: phân tích mã nguồn toàn bộ kho lưu trữ, đánh giá tài liệu pháp lý trên các danh mục hợp đồng vượt quá 500.000 token và trạng thái hội thoại doanh nghiệp đa phiên mà các mô hình hiện tại không thể duy trì.

Ý nghĩa về giá cả là rất đáng kể. Theo mức giá 2 USD cho mỗi 1 triệu token đầu vào của Gemini 3.1 Pro, một lần gọi 2 triệu token sẽ tốn 4 USD chỉ riêng cho đầu vào — đắt cho các tác vụ đơn giản nhưng mang tính chuyển đổi rẻ so với việc duy trì cơ sở hạ tầng RAG tùy chỉnh. Google chưa công bố giá của Gemini 3.5 Pro, nhưng cấu trúc phụ phí ngữ cảnh trên 200.000 token sẽ quyết định liệu các trường hợp sử dụng ngữ cảnh lớn có trở nên khả thi về mặt kinh tế ở quy mô lớn hay không.

Deep Think và câu hỏi về việc khóa đăng ký

Deep Think kéo dài thời gian cân nhắc của mô hình trước khi tạo phản hồi, tạo ra hiệu suất tốt hơn trong các tác vụ toán học, logic và lập luận có cấu trúc. Dữ liệu nội bộ cho thấy mức cải thiện từ 10 đến 15 điểm trên SWE-bench Verified so với thế hệ 3.1, mặc dù những con số này vẫn chưa được xác minh bởi các điểm chuẩn bên ngoài.

Việc khóa khả năng lập luận mở rộng sau gói đăng ký 250 USD mỗi tháng thay vì định giá API dựa trên mức sử dụng tạo ra rào cản cho phân khúc nhà phát triển quan tâm nhất đến chất lượng lập luận. Khách hàng doanh nghiệp có số lượng chỗ ngồi cố định có thể hấp thụ chi phí; các nhà phát triển cá nhân và startup xây dựng ứng dụng sử dụng nhiều lập luận thì không thể. Mô hình của Google với các phiên bản Gemini trước đây là ra mắt các tính năng trong các bậc đăng ký và sau đó phát hành qua API — Deep Think có khả năng sẽ đi theo con đường đó.

Bối cảnh cạnh tranh và hàm ý cho nhà đầu tư

Cuộc đua ba chiều giữa Google, OpenAI và Anthropic hiếm khi thực sự cởi mở hơn như lúc này. Mỗi nhà cung cấp đều có năng lực đáng kể và những hạn chế đáng kể. Đối với Alphabet, việc ra mắt Gemini 3.5 Pro là trọng tâm để kiếm tiền từ hơn 50 tỷ USD chi tiêu vốn hàng năm mà công ty đã cam kết cho cơ sở hạ tầng AI. Nvidia, với các GPU H100 và B200 cung cấp năng lượng cho phần lớn các lần huấn luyện, sẽ được hưởng lợi bất kể nhà cung cấp mô hình nào giành được thị phần.

Nếu Google định giá ngữ cảnh 2 triệu token ở mức giá cố định thay vì phụ phí nhân lên, điều đó sẽ thay đổi đáng kể mô hình chi phí cho các ứng dụng ngữ cảnh lớn. Các số liệu điểm chuẩn đi kèm với thông báo GA sẽ ít quan trọng hơn trang giá — các mô hình tiên tiến đủ gần nhau về năng lực đến mức chi phí và kích thước ngữ cảnh quyết định việc áp dụng ở quy mô lớn hơn là sự khác biệt 2 đến 3 điểm chuẩn.

Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.