Tether旗下AI部门开源了谷歌TurboQuant,将本地设备的AI工作内存压缩至原来的五分之一。
Tether旗下AI部门开源了谷歌TurboQuant,将本地设备的AI工作内存压缩至原来的五分之一。

Tether旗下AI部门开源了谷歌TurboQuant,将本地设备的AI工作内存压缩至原来的五分之一。
一个迫使AI工作负载困在数据中心的内存瓶颈正在瓦解。Tether AI研究团队于周一开源了TurboQuant,这是谷歌KV缓存压缩算法的生产级实现,可将内存消耗降低最多达5倍,同时保持输出质量。
"如果长上下文AI只能在超大数据中心里运行,那么AI将由拥有最多硬件的人来塑造,"Tether首席执行官Paolo Ardoino表示。"TurboQuant通过让内存不再成为壁垒,改变了本地AI的能力边界。"
KV缓存——Transformer模型在会话中用来追踪上下文的工作内存——会随着对话拉长而膨胀。在约26.2万个token(相当于数小时的对话或数百页文本)的情况下,一个40亿参数模型的KV缓存大约占用8GB内存。四个并发会话在不算模型本身的情况下就会将其推高至32GB。TurboQuant可将该缓存压缩至原大小的五分之一,使得长上下文AI在消费级GPU、手机和边缘设备上成为可能。
此次发布使Tether的QVAC Fabric——其基于llama.cpp分叉的开源本地AI引擎——成为去中心化AI推理竞赛中的重要参与者。如果TurboQuant的5倍压缩效果在不同模型架构上均能成立,它有望将相当一部分推理工作负载从云服务商手中分流,包括亚马逊AWS、微软Azure和谷歌云——这三家公司在2025年合计在AI基础设施上投入了约2300亿美元。
该算法最初由谷歌研究院于2026年3月24日发表,专门对KV缓存进行量化——将数值精度从16位或32位浮点数压缩至4位或2位表示。与许多压缩技术不同,TurboQuant无需模型重新训练或微调。开发者可通过Tether的QVAC SDK 0.12.0将其应用于现有模型,该SDK包含完整的量化流程、通用推理引擎的框架适配器以及按工作负载调优的部署配置。
对于开发者和初创公司而言,这些影响是实际而非理论上的。团队不再需要围绕短上下文窗口和纯云端部署来设计AI产品,而是在消费级硬件上就能支持更长的会话。一个编程助手可以记住整个代码库;一个法律文档审核工具可以在笔记本上处理数百页的合同;一个辅导应用可以保持整个学习过程的上下文——所有这些都无需将数据经由远程数据中心传输。
Tether的实现建立在包括PolarQuant和Quantized Johnson-Lindenstrauss在内的前期压缩工作之上,通过叠加多种技术来针对效率问题的不同环节。该公司一直在拓展其稳定币业务之外的AI版图——稳定币使其成为加密领域的家喻户晓的品牌——近期发布的成果包括用于本地私有AI的QVAC Workbench、本地健康追踪工具QVAC Health,以及专为手机和可穿戴设备设计的医学AI模型系列QVAC MedPsy。
本次开源发布是一项战略举措,旨在围绕QVAC Fabric构建生态系统,并将Tether的工具包定位为去中心化AI的默认基础设施。任何开发者都可以获取代码,将其集成到推理流程中,并立即获得内存节省的好处。
竞争威胁对云GPU提供商而言最为严峻。英伟达的H100和B200 GPU在数据中心推理市场中占据主导地位,其高价部分正是因为它们是唯一能够大规模运行长上下文工作负载的硬件。如果本地硬件借助TurboQuant便能处理同样的工作负载,云推理的可寻址市场可能会缩水。英伟达最近一个财年的数据中心收入达到475亿美元,其中推理约占该总额的40%。
不过,5倍压缩的说法是否在不同模型架构和上下文长度下均能成立,仍需独立基准测试来验证。量化技术有时在实际使用中会因对话拉长或推理任务更复杂而出现性能下降。Tether未披露其压缩主张的测试条件。
Tether并非上市公司,但其对更广泛AI生态系统的影响是可以衡量的。本地设备上每释放1GB内存,就降低了一分将推理路由至云端API的动力,进而可能压缩云推理提供商的总可寻址市场。对于英伟达、AMD和云巨头的投资者而言,问题在于本地推理效率的提升会以多快的速度转化为数据中心需求的下降——这个时间线是以年而非季度来衡量的。
本文仅供参考,不构成投资建议。