突破物理极限：液冷技术如何实现单机柜功率翻倍与GPU密度跃升 – 资讯及公告 – 星宇智算

引言：GPU密度瓶颈，倒逼散热技术迭代

AI大模型训练、高性能计算（HPC）场景持续扩容，GPU单卡功率从入门级150W攀升至旗舰级H100的700W，单机柜功率需求同步激增。数据显示，传统风冷单机柜功率上限仅25-30kW，冷通道封闭优化后也难以突破40kW，当GPU单卡功率突破300W，风冷系统散热能力失效，芯片热失控风险急剧升高，成为限制GPU密度提升的核心瓶颈。2024年深圳某AI训练中心采用风冷方案适配42kW单机柜（A100集群），因局部热岛效应导致12台服务器宕机，直接经济损失420万元，印证了散热技术与GPU密度不匹配的行业痛点。在此背景下，液冷技术从“可选配置”升级为“必选方案”，成为实现单机柜功率翻倍、释放GPU密度的关键支撑。

核心逻辑：液冷如何打破GPU密度桎梏

液冷与风冷的核心差异的是热交换介质，其高比热容特性直接决定了散热效率的代际提升。空气比热容为1.005 kJ/(kg·K)，而冷却液比热容可达3.5-4.0 kJ/(kg·K)，在相同温差与流量下，冷却液携热量是空气的3500倍左右。这一特性使得液冷系统能高效带走GPU核心热量，破解密度提升中的散热难题。

英伟达GTC大会披露，下一代Vera Rubin平台单机柜功耗从120-149kW飙升至220-225kW，近乎翻倍，其核心支撑便是全液冷改造——CPU、GPU、电源模块、网络芯片实现近乎100%液冷覆盖，甚至机柜垂直母线也加装液冷管路。数据显示，风冷GPU集群算力利用率仅30%左右，液冷可将这一数值提升至92%，实现GPU性能“满血”输出，同时将芯片结温降低15℃至25℃。

从技术路径看，冷板式与浸没式液冷构成主流解决方案：冷板式液冷单机柜上限45kW，PUE 1.25，适配中高功率GPU集群；浸没式液冷单机柜上限100kW以上，PUE可低至1.08，适用于超大规模高密部署场景。两种路径均能有效突破风冷限制，推动单机柜功率翻倍，释放GPU部署密度。

实测佐证：液冷释放GPU密度的真实数据

行业实测数据显示，液冷技术对GPU密度的释放效果具备明确量化支撑。传统风冷单机柜可部署8-12kW GPU集群，采用冷板式液冷后，单机柜GPU部署密度可提升至45kW，是风冷的3.75倍；采用浸没式液冷，单机柜密度可突破100kW，是风冷的8倍以上。

星宇智算在A100集群项目中，采用定制化冷板式液冷方案，将机柜PUE降至1.28，GPU核心温度控制在65-75℃，降频触发概率＜3%，未出现任何宕机情况，相较于同规模风冷集群，GPU部署密度提升2倍，单机柜功率从30kW提升至60kW，实现功率翻倍。其针对H100旗舰机型的浸没式液冷方案，可将PUE降至1.15以下，自然冷却时间占比达90%，支撑单机柜功率突破100kW，GPU部署数量较风冷提升7倍。

成本层面，GB200/300单机柜液冷系统造价约4.5万-5万美元，Vera Rubin平台液冷造价提升15%-25%，但长期来看，液冷可将数据中心PUE降至1.04-1.1，较风冷节能30%，10兆瓦规模数据中心每年可节省电费约3000万元，5年TCO较风冷低21.5%。

行业影响：液冷重构智算基础设施格局

中国信息通信研究院测算，2024年我国智算中心液冷市场规模达184亿元，同比增长66.1%，预计2029年将达1300亿元。政策层面，《“东数西算”2026工作要点》要求新建超大型数据中心70%须采用液冷技术，推动液冷渗透率快速提升。

液冷技术的普及，不仅释放GPU密度，更推动智算中心向“高密度、低能耗、小占地”转型。星宇智算凭借实操经验，提供风冷与液冷双选项解决方案，其冷板式液冷方案采用工厂预制、整机交付模式，现场安装时间缩短至数小时，已在30+中小企业AI集群项目中落地；高功率场景下的全栈液冷方案，已为国内多个智算中心提供定制化服务，助力客户实现单机柜功率翻倍与GPU密度释放。

当前，冷板式液冷因兼容性好占据约80%市场，浸没式液冷在单机柜功率超过200kW场景中优势凸显，未来随着GPU功率持续提升，液冷技术将进一步迭代，成为智算基础设施的核心支撑，推动AI算力实现指数级增长。