AI nguồn mở thu hẹp khoảng cách xuống còn 3 tháng khi 4 mô hình tái định hình năm 2026

Các mô hình AI nguồn mở đã thu hẹp khoảng cách năng lực với các hệ thống tiên tiến nguồn đóng xuống chỉ còn ba tháng, theo phân tích tháng 6/2026 của OpenRouter, khi bốn mô hình hiện có thể cạnh tranh với các sản phẩm của OpenAI và Anthropic với chi phí chỉ bằng một phần nhỏ.

"Khoảng cách giữa mô hình mở và đóng đã ổn định ở mức 3 đến 6 tháng trong 18 tháng qua và không có dấu hiệu nào cho thấy các phòng thí nghiệm nguồn đóng đang bỏ xa," OpenRouter viết trong báo cáo của mình, báo cáo đã xác định bốn bản phát hành trọng số mở có tác động lớn nhất năm 2026.

DeepSeek V4 Flash dẫn đầu về hiệu quả chi phí. Mô hình hỗn hợp chuyên gia (mixture-of-experts) với 284 tỷ tham số, được phát hành vào tháng 4 theo giấy phép MIT, đạt 79% trên SWE-bench Verified — chỉ kém 1,6 điểm so với biến thể Pro — trong khi định giá đầu ra ở mức 28 xu trên một triệu token, gần bằng 1/150 chi phí của GPT-5.5 từ OpenAI. GLM 5.2, được phát hành vào giữa tháng 6 bởi Z.ai của Trung Quốc, đứng đầu bảng xếp hạng nguồn mở trên Chỉ số Trí tuệ (Intelligence Index) của Artificial Analysis với số điểm 51, chỉ kém Fable 5 hiện đã bị cấm của Anthropic 5 điểm. Mô hình 744 tỷ tham số, được đào tạo hoàn toàn trên 100.000 chip Huawei Ascend 910B mà không sử dụng phần cứng Nvidia, đạt 62,1 trên SWE-bench Pro, vượt qua mức 58,6 của GPT-5.5.

Sự hội tụ này có tác động trực tiếp đến đầu tư. Các doanh nghiệp chuyển đổi quy trình lập trình và tác nhân (agentic) từ API đóng sang mô hình trọng số mở có thể cắt giảm chi phí suy luận từ 50 đến 150 lần, theo so sánh định giá của OpenRouter. Động lực này đe dọa sức mạnh định giá của OpenAI và Anthropic, đồng thời có lợi cho các nhà cung cấp hạ tầng hỗ trợ triển khai tự lưu trữ — và đặt ra câu hỏi về giá trị chiến lược của các kiểm soát xuất khẩu của Mỹ, khi GLM 5.2 ra mắt cùng tuần Washington ra lệnh cho Anthropic hạn chế quyền truy cập Fable 5 đối với công dân nước ngoài.

OpenRouter phát hiện, DeepSeek V4 Flash đã trở thành mô hình trọng số mở đầu tiên mà các nhà phát triển thường xuyên tích hợp trực tiếp vào quy trình tác nhân như một sự thay thế tương thích cho các hệ thống Anthropic hoặc OpenAI. Biến thể Flash của nó giữ lại hầu hết khả năng lập trình của phiên bản Pro — 79% so với 80,6% trên SWE-bench Verified — trong khi cắt giảm chi phí đầu ra so với GPT-5.5 tới 150 lần. DeepSeek vào tháng 5 đã chính thức hóa chính sách chiết khấu vĩnh viễn, củng cố cuộc chiến giá ở cấp độ trí tuệ tiên tiến. Đánh đổi: mô hình yêu cầu prompt đặc biệt cụ thể và hoạt động kém trong các tác vụ viết sáng tạo và kiểm soát giọng điệu, hạn chế việc sử dụng trong các tác vụ tạo nội dung.

Sự xuất hiện của GLM 5.2 mang trọng lượng địa chính trị. Bộ Thương mại Mỹ vào ngày 12/6 đã ra lệnh cho Anthropic vô hiệu hóa Fable 5 và Mythos 5 đối với tất cả công dân nước ngoài, với lý do lỗ hổng jailbreak mà Anthropic đã phản bác. Z.ai phát hành GLM 5.2 theo giấy phép MIT năm ngày sau đó, cho phép các nhà phát triển trên toàn thế giới tải xuống và tự lưu trữ mô hình — miễn nhiễm với mọi lệnh kiểm soát xuất khẩu trong tương lai. Trên Code Arena, bảng xếp hạng kiểu Elo dựa trên bình chọn ẩn danh của con người, GLM 5.2 xếp thứ hai tổng thể với 1.595 điểm, đứng đầu trong số tất cả các mô hình hiện có kể từ khi Fable 5 bị gỡ bỏ. Trên Design Arena, nó giành vị trí dẫn đầu tuyệt đối. Khoảng cách còn lại nằm ở các chuẩn mực suy luận khó nhất: trên ARC-AGI-2, nơi kiểm tra khả năng suy luận linh hoạt chống nhiễu dữ liệu, mô hình Trung Quốc tốt nhất chỉ đạt 11,8%, thấp hơn nhiều so với các phòng thí nghiệm hàng đầu của Mỹ.

MiniMax M3 lấp đầy một mảng khác. Đây là mô hình duy nhất trong số bốn mô hình có khả năng hiểu văn bản, hình ảnh, biểu đồ và video một cách tự nhiên, khiến nó trở thành lựa chọn mặc định cho các quy trình tác nhân yêu cầu đọc màn hình, tự động hóa giao diện người dùng hoặc phân tích tài liệu trực quan. Mô hình đạt 44 điểm trên Chỉ số Trí tuệ, ngang bằng với DeepSeek V4 Pro và gần tương đương Claude Sonnet 4.6 trong các tác vụ tác nhân thực tế. Mức định giá của nó — 9,8 xu trên một triệu token đầu vào và 1,21 USD cho đầu ra — thấp hơn Gemini Flash của Google trong các khối lượng công việc đa phương thức, mặc dù giấy phép cộng đồng của nó yêu cầu ghi nhận tác giả khi sử dụng thương mại và ủy quyền bằng văn bản cho các sản phẩm quy mô lớn.

NVIDIA Nemotron 3 Ultra đại diện cho đối trọng doanh nghiệp của Mỹ. Mô hình lai Mamba-2 và Transformer với 550 tỷ tham số, đạt 48 điểm trên Chỉ số Trí tuệ, thua GLM 5.2 về các chuẩn mực thô nhưng mang lại hiệu quả triển khai vượt trội trên hệ sinh thái phần cứng của chính Nvidia. Nvidia đã mã nguồn mở hóa không chỉ trọng số mô hình mà còn cả dữ liệu huấn luyện, công thức, công cụ đánh giá và hạ tầng học tăng cường theo giấy phép OpenMDW — một chiến lược được thiết kế để thúc đẩy nhu cầu cho chip và hệ sinh thái phần mềm của họ. Độ chính xác NVFP4 và hỗ trợ dự đoán đa token của mô hình khiến nó trở thành lựa chọn thực tế nhất cho các doanh nghiệp ưu tiên tốc độ triển khai, kiểm soát dữ liệu và sự ổn định của nhà cung cấp hơn là điểm số chuẩn mực cao nhất.

Đối với các nhà đầu tư, sự hội tụ của nguồn mở tạo ra một canh bạc hai mặt. Các công ty như Nvidia được hưởng lợi gián tiếp khi việc áp dụng trọng số mở thúc đẩy nhu cầu phần cứng suy luận — Nemotron vừa là công cụ bán hàng cho hệ sinh thái AI của Nvidia vừa là một sản phẩm độc lập. Nhưng sự sụp đổ giá cả đe dọa mô hình doanh thu của các nhà cung cấp API đóng: OpenAI và Anthropic phải đối mặt với áp lực chứng minh mức giá cao cấp khi các giải pháp thay thế mở mang lại hiệu suất lập trình tương đương với chi phí chỉ bằng 1/150. Microsoft, công ty lưu trữ các mô hình của OpenAI trên Azure, có thể thu được nhu cầu bù đắp nếu các doanh nghiệp chuyển sang mô hình trọng số mở chọn Azure cho hạ tầng được quản lý. Rủi ro chính: các mô hình nguồn mở thất bại trong các bài kiểm tra an toàn và tuân thủ doanh nghiệp trong sản xuất, làm chậm quá trình áp dụng và bảo vệ sức mạnh định giá của nguồn đóng.

Bài viết này chỉ mang tính chất tham khảo và không cấu thành lời khuyên đầu tư.