Google cắt giảm chi phí mô hình AI khi quy mô tính toán thúc đẩy hiệu suất

Google đang làm cho các mô hình AI của mình rẻ hơn và nhanh hơn, sử dụng nhiều sức mạnh tính toán hơn để tăng tốc hiệu suất đồng thời cắt giảm chi phí — một chiến lược gây áp lực lên các đối thủ OpenAI và Anthropic vào thời điểm ngành công nghiệp đang phải đối mặt với sự giám sát ngày càng tăng về giá cả tăng cao và các giới hạn sử dụng.

"Bằng cách mở rộng quy mô tính toán, chúng tôi có thể mang lại hiệu suất tốt hơn với chi phí trên mỗi token thấp hơn," một phát ngôn viên của Google cho biết. "Đây là kết quả trực tiếp từ các khoản đầu tư của chúng tôi vào phần cứng TPU tùy chỉnh và cải tiến kiến trúc mô hình."

Việc cắt giảm chi phí diễn ra khi động lực AI của Google đang tăng tốc. Công ty đã báo cáo tổng doanh thu 110 tỷ USD trong quý gần nhất, tăng 22% so với cùng kỳ năm trước, với doanh thu từ điện toán đám mây tăng vọt 63%. Cổ phiếu Alphabet đang giao dịch quanh mức 387 USD, tăng 25% từ đầu năm đến nay, được hỗ trợ bởi đồng thuận xếp hạng Mua vừa phải từ 54 nhà phân tích và mục tiêu giá trung bình 412,65 USD. Wells Fargo đã nâng mục tiêu lên 435 USD, trong khi Citizens JMP giữ mức cao nhất trên thị trường ở 515 USD.

Thời điểm này mang tính chiến lược. Các đối thủ Anthropic và OpenAI đều đã phải đối mặt với phản ứng dữ dội về thay đổi giá — Anthropic sau khi tăng gấp đôi chi phí ước tính trên mỗi nhà phát triển cho Claude Code, và OpenAI sau khi thử nghiệm các tùy chọn bậc tính toán mới khiến người dùng lo ngại sẽ làm giảm hiệu suất. Ứng dụng Gemini của chính Google đã giới thiệu các giới hạn sử dụng dựa trên tính toán trong tháng này, khóa những người dùng nặng trong tối đa năm giờ, một động thái gây ra chỉ trích nhưng cũng báo hiệu sự tập trung của công ty vào việc quản lý kinh tế suy luận.

Cách Quy Mô Tính Toán Giảm Chi Phí

Lợi thế của Google dựa trên ba lớp mà công ty kiểm soát từ đầu đến cuối: Bộ xử lý Tensor tùy chỉnh, dòng mô hình Gemini và cơ sở hạ tầng đám mây trải dài hơn 40 khu vực. Tại Google I/O 2026, công ty đã công bố Gemini 3.5 Flash, một mô hình nhẹ được thiết kế để có hiệu suất mạnh mẽ với chi phí tính toán thấp hơn, cùng với Omni, một mô hình thế giới để mô phỏng môi trường vật lý, và Gemini Spark, một AI tác nhân có thể hoạt động trên các ứng dụng được kết nối.

Kinh tế học ưu ái quy mô. Như Giám đốc Công nghệ Shyam Sankar của Palantir đã lưu ý trong một bối cảnh khác, "Khi suy luận trở nên rẻ hơn, số lượng nhiệm vụ mà bạn có thể giao cho AI một cách kinh tế sẽ tăng theo cấp số nhân." Khả năng của Google trong việc phân bổ chi phí phát triển TPU trên hàng triệu suy luận hàng ngày mang lại lợi thế chi phí cấu trúc so với các đối thủ phụ thuộc vào GPU Nvidia được mua theo giá thị trường.

Điều Này Có Ý Nghĩa Gì Đối Với Đối Thủ Cạnh Tranh và Nhà Đầu Tư

Việc cắt giảm chi phí đe dọa mở rộng khoảng cách giữa Google và các phòng thí nghiệm AI nhỏ hơn. Mức giá của Claude Code của Anthropic đã buộc Microsoft phải thu hồi giấy phép nội bộ mặc dù nhà phát triển ưa chuộng công cụ này, theo một báo cáo. GPT-5.5 Instant của OpenAI đã trở thành mô hình mặc định của ChatGPT trong tháng này, nhưng công ty vẫn chưa theo kịp tốc độ giảm giá của Google.

Đối với các nhà đầu tư, có hai hàm ý. Chi phí suy luận thấp hơn mở rộng thị trường có thể tiếp cận cho các ứng dụng AI, mang lại lợi ích cho đường ống doanh nghiệp của Google Cloud. Nhưng chúng cũng làm thu hẹp biên lợi nhuận của các công ty AI thuần túy thiếu sự tích hợp phần cứng dọc của Google. 110 tỷ USD tiền mặt từ hoạt động kinh doanh trong 12 tháng qua của Alphabet tài trợ cho việc xây dựng cơ sở hạ tầng giúp chiến lược này khả thi — một hào bảo vệ mà các phòng thí nghiệm AI thuần túy không thể sao chép.

Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.