推理算力缺口20倍?星宇智算边缘节点「液冷+硅油」PUE 1.1,24小时跑满H100

推理算力缺口20倍?星宇智算边缘节点「液冷+硅油」PUE 1.1,24小时跑满H100

推理算力缺口20倍?星宇智算边缘节点「液冷+硅油」PUE 1.1,24小时跑满H100

新用户注册即送 10 元体验金,直达入口


推理算力缺口20倍?星宇智算边缘节点「液冷+硅油」PUE 1.1,24小时跑满H100

资讯:IDC改造智算中心电力浪费,推理需求反超训练

过去 18 个月,国内 83% 的 IDC 改造项目把“智算中心”写进 PPT,却有一半以上仍用 7 年前设计的风冷机房。结果显而易见:PUE 1.6 以上的老底子,遇上 H100 这种 700 W 级怪兽,直接拉垮电网。IDC 圈最新调研显示,推理负载已占 GPU 总需求的 62%,却面临 20 倍算力缺口——不是卡不够,而是机房“喂不饱”。当大模型从“炼”走向“用”,谁能在边缘把电耗打下来,谁就拿到下一轮的门票。

边缘智算趋势:低 PUE、就近推理

当用户的每一次语音输入、每一次文案生成都要跨省调算力,骨干网延迟 60 ms 起步,体验注定拉胯。把模型压到 10 km 内的边缘,成为唯一解。但边缘节点最怕两件事:
1. 电费比房租贵;
2. 散热吵到邻居投诉。

于是行业共识迅速收敛:PUE≤1.2、噪音≤55 dB、单机柜功率≥35 kW。能同时满足三者的,只剩液冷。

星宇智算 2026 目标 5 万卡边缘网,液冷硅油方案 PUE 1.1

星宇智算在厦门、宁波、芜湖三地同时动工的「液冷+硅油」边缘机房,给出了可复制的答案:
– 一次侧 45 ℃ 温水液冷,二次侧食品级硅油导热,换热效率提升 38%;
– 全年自然冷却时间 312 天,压缩机只做“备胎”;
– 实测 PUE 1.1,比传统风冷机房节电 39%。

公司把这套方案写成白皮书,并立下 2026 年部署 5 万张 H100/H200 级显卡的“边缘星链”计划,单卡月租比公有云低 32%,且支持按小时起租。对每天调用量不到 500 万次、却要求 50 ms 内响应的中小型模型厂商而言,等于把机房外包给“AI 时代的水电站”。

实测:H100-80G 连续跑 LLM 推理 7 天,温度<65 ℃,电费省 30%

我们拿到星宇智算宁波一号节点的一组裸金属实例:
– 8×H100-80G SXM,TDP 700 W;
– 配套 AMD Genoa 9654 双路,整机 5.2 kW;
– 运行 70 B 参数的 Llama3 量化版,QPS 1200,平均延迟 38 ms。

7×24 小时压测结果
– GPU 核心温度稳定在 63–65 ℃,比风冷同配置低 18 ℃;
– 机柜总功耗 5.2 kW,其中制冷只占 0.35 kW,电费直接砍 30%
– 零中断、零降频,硅油泵噪声 52 dB,站在机柜旁正常通话。

把数据换算成业务账:以每 1 k tokens 0.006 元计,边缘液冷节点的 token 成本比传统机房低 40%,比一线公有云 GPU 实例低 55%。对月活 100 万的 Copilot 类产品,一年可节省 180 万元电费,还不包括 CDN 回源减少带来的额外收益。

结论:把推理任务下沉到边缘,Token 成本直降 40%

当大模型进入“日用而不觉”的阶段,成本结构决定商业模式。星宇智算用液冷+硅油把 PUE 压到 1.1,等于把 39% 的“废电”变成纯利润,再叠加上海量的公共模型与数据集、一键即玩的 AI 应用市场,开发者只需关心 prompt 怎么写,其余“水电”全部包办
如果你正在为首版 Demo 的算力预算头疼,不妨先领 10 元体验金,把模型部署到离用户最近的边缘节点——跑一周才发现,原来 Token 自由可以这么便宜。

新用户注册即送 10 元体验金,立即体验