Chi nhánh AI của Tether đã biến một bài nghiên cứu của Google Research thành mã sản xuất, giúp giảm tới 5 lần bộ nhớ mà các mô hình ngôn ngữ lớn cần trong các phiên làm việc dài.
Chi nhánh AI của Tether đã biến một bài nghiên cứu của Google Research thành mã sản xuất, giúp giảm tới 5 lần bộ nhớ mà các mô hình ngôn ngữ lớn cần trong các phiên làm việc dài.

Nhóm Nghiên cứu AI của Tether hôm thứ Hai đã phát hành bản triển khai mã nguồn mở của TurboQuant, một thuật toán của Google Research giúp nén bộ nhớ đệm key-value — bộ nhớ làm việc mà các mô hình transformer sử dụng để theo dõi ngữ cảnh — tới 5 lần mà không cần đào tạo lại hay tinh chỉnh các mô hình hiện có, giúp việc chạy AI có năng lực trên laptop, điện thoại và các thiết bị biên trở nên khả thi thay vì định tuyến mọi tác vụ qua các trung tâm dữ liệu đám mây.
"Nếu AI ngữ cảnh dài chỉ hoạt động được bên trong các trung tâm dữ liệu lớn nhất, thì AI sẽ bị định hình bởi bất kỳ ai sở hữu nhiều phần cứng nhất," Paolo Ardoino, giám đốc điều hành của Tether, cho biết trong một tuyên bố. "TurboQuant thay đổi những gì AI cục bộ có thể làm bằng cách biến bộ nhớ không còn là rào cản."
KV cache chính là nút thắt cổ chai buộc các phiên AI dài phải chạy trên đám mây. Ở khoảng 262.000 token — tương đương vài giờ hội thoại hoặc vài trăm trang văn bản — KV cache cho một mô hình 4 tỷ tham số tự nó tiêu thụ khoảng 8 gigabyte bộ nhớ. Bốn phiên đồng thời ở độ dài đó đẩy bộ nhớ đệm vượt quá 32 GB trước khi tính đến trọng số mô hình. TurboQuant nén dung lượng đó xuống còn khoảng 1,6 GB mỗi phiên, hay 6,4 GB cho bốn phiên, đưa tổng dung lượng vào tầm với của phần cứng tiêu dùng có 16 GB đến 32 GB bộ nhớ hợp nhất.
Bản phát hành này là một phần của QVAC SDK 0.12.0, nền tảng rộng lớn hơn của Tether dành cho AI phi tập trung, cũng đã bổ sung khả năng tạo video từ văn bản và điều khiển robot trong cùng một bản cập nhật. SDK bao gồm một pipeline lượng tử hóa hoàn chỉnh, các bộ chuyển đổi cho các framework suy luận phổ biến, tài liệu hướng dẫn và các hồ sơ triển khai được tối ưu theo khối lượng công việc. Các nhà phát triển có thể áp dụng TurboQuant cho các mô hình hiện có mà không cần bắt đầu lại từ đầu — không cần đào tạo lại hay tinh chỉnh.
Tại sao bộ nhớ lại quan trọng đối với ngăn xếp AI
Ràng buộc về bộ nhớ từ lâu đã là một trong những rào cản cấu trúc khiến khối lượng công việc AI tập trung trong các trung tâm dữ liệu siêu quy mô. Một mô hình cần 16 GB bộ nhớ làm việc chỉ riêng cho KV cache không thể chạy trên MacBook Air hay một chiếc điện thoại Android tầm trung. Cắt giảm xuống còn 3,2 GB thay đổi hoàn toàn bài toán triển khai, mở ra cánh cửa cho các trợ lý trên thiết bị có thể xử lý các tài liệu hàng trăm trang, lưu giữ toàn bộ ngữ cảnh dự án và xử lý dữ liệu riêng tư ngay tại chỗ.
Triển khai của Tether dựa trên một số kỹ thuật nén trước đó mà công ty đã tích hợp vào QVAC, bao gồm PolarQuant và Quantized Johnson-Lindenstrauss. Mỗi kỹ thuật nhắm vào một phần khác nhau của bài toán hiệu quả. TurboQuant là lớp mới nhất, được điều chỉnh từ một bài nghiên cứu của Google Research được công bố ngày 24 tháng 3.
Bản chất mã nguồn mở của bản phát hành là một nước đi chiến lược nhằm phát triển hệ sinh thái xung quanh QVAC và định vị nền tảng của Tether như bộ công cụ mặc định cho AI phi tập trung. Bất kỳ nhà phát triển nào cũng có thể lấy mã và tích hợp ngay vào pipeline suy luận của họ. Điều này đặt Tether vào vị thế cạnh tranh trực tiếp với các framework AI cục bộ đã được thiết lập như llama.cpp và Ollama, cũng như các nhà cung cấp đám mây mà mô hình kinh doanh phụ thuộc vào việc định tuyến suy luận qua trung tâm dữ liệu của họ.
Ý nghĩa đối với các nhà đầu tư
Tether, được biết đến nhiều nhất với tư cách là tổ chức phát hành stablecoin USDT trị giá 140 tỷ USD, đã và đang mở rộng mạnh mẽ sang cơ sở hạ tầng AI. Luận điểm của công ty là giai đoạn tiếp theo của AI sẽ được định nghĩa bởi hiệu quả phần mềm và tính di động thay vì quy mô tính toán thô. Nếu tuyên bố nén 5 lần của TurboQuant được giữ vững trên các kiến trúc mô hình và độ dài ngữ cảnh khác nhau — các chuẩn đánh giá độc lập vẫn chưa được công bố — nó có thể đẩy nhanh sự dịch chuyển khối lượng công việc suy luận từ các dịch vụ đám mây tập trung sang các thiết bị cục bộ, có khả năng bóp nghẹt tăng trưởng doanh thu của các nhà cung cấp GPU đám mây trong khi mở rộng thị trường địa chỉ cho phần cứng AI biên.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.