关键要点:
- 英伟达Rubin平台是首个100%全液冷AI系统,使用45°C冷却液
- 闭环设计将水消耗降至接近零,PUE降至1.15
- 一个50兆瓦的设施每年可节省超过400万美元的冷却成本
关键要点:

英伟达Rubin架构是业界首个100%全液冷AI平台,采用45°C冷却液,消除风扇并将数据中心水消耗降低多达100%。
英伟达Rubin系列运行温度高达45°C的冷却液——比热水浴缸还要热——采用密封无风扇设计,将数据中心冷却用水量降至接近为零,这对于冷却用电占比高达40%的行业而言是一个里程碑。
"基于干式冷却器的设计是一个闭环系统,没有蒸发式水冷却——除了一年当中约1%的时间,某些气候条件下我们可能需要用到冷水机组,"英伟达数据中心冷却总监Ali Heydari表示。
该系统将75%的水和25%的丙二醇混合液循环通过直接安装于每颗处理器、网络芯片和电源组件上的冷板——摒弃了此前几代产品的混合式气液冷却方式。冷却液以45°C进入机架,在吸收芯片表面热量后以约55°C排出。根据英伟达的数据,采用该技术的50兆瓦超大规模数据中心设施每年可节省超过400万美元的冷却相关能源和水成本,同时将PUE从1.35降至1.15。
Rubin NVL72机架集成了72块GPU和36颗CPU,单柜功率密度超过100千瓦,每台售价高达880万美元。英伟达股价6月19日收于210.69美元,公司市值达5.14万亿美元。这项冷却创新消除了扩展AI基础设施的一个关键瓶颈,在超大规模云服务商正严格审视每一瓦数据中心电力的当下,巩固了英伟达相对于AMD和定制ASIC竞争对手的竞争地位。
45°C冷却液如何改变数据中心的物理原理
传统数据中心依赖高能耗的冷水机组和风扇,通过冷热通道推送冷却空气,冷却风扇产生的噪音水平可达85分贝或更高。英伟达的方案颠覆了这一模式:通过液冷冷板直接在芯片处捕获热量,系统可通过室外干式冷却器(本质上是大型散热器盘管)将热量排出,一年中大部分时间无需机械制冷。
地理位置因素至关重要。气候较凉爽地区的设施可完全无需冷水机组运行,而凤凰城等地点在夏季高峰日可能需要启动少量冷水机组。即使在较温暖的地区,转向45°C冷却液也使运营商更接近无冷水机组的理想状态,冷水机组可能仅需在每年数天内运行。
Rubin平台还在其冷板中引入了微通道技术,流道通过精密铣削、刮削、激光加工、蚀刻或3D打印等工艺加工至微米级精度。根据华源证券分析师李泽的分析,铜是这些微通道冷板的首选基础材料,因其导热性能优于铝。
供应链与竞争格局影响
向100%全液冷的转型在整个数据中心供应链中产生了连锁效应。施耐德电气旗下先进冷却部门Motivair与英伟达的产品路线图已合作近十年,开发了高阻抗冷却液配方以提高可靠性并最大限度降低泄漏风险。"一旦每颗芯片的功耗超过一定水平,液冷就变得不可或缺,"Motivair总裁兼首席执行官Richard Whitmore表示。
对于正在建设AI基础设施的云服务商而言,运营节省是实实在在的。采用传统冷却塔系统的设施每兆瓦每年大约消耗260万加仑水。英伟达的闭环设计几乎完全消除了这一消耗。废热回收的潜力——将AI工厂的余热用于为附近商业或住宅建筑供暖——增加了另一层价值。
作为Blackwell的继任者,英伟达Rubin架构计划为下一波超大规模AI部署提供动力。单个机柜功率超过200千瓦,空气冷却已无法满足如此高的密度需求。包括AMD和不断扩大的定制ASIC设计商在内的竞争对手,需要在热工程方面跟上英伟达,才能在AI硬件市场保持竞争力。
英伟达股价目前约为远期盈利的35倍。如果冷却效率提升能在现有装机基础中得到广泛采用,每年可为超大规模云服务商降低数亿美元的总拥有成本——这一因素可能足以证明Rubin机架高溢价的合理性,并巩固英伟达在AI基础设施领域的主导地位。
本文仅供参考,不构成投资建议。