5 万亿参数大模型耗算力黑洞：星宇智算万卡级集群网络+液冷方案拆解 – 资讯及公告 – 星宇智算

“训练一次 5 万亿参数的稠密模型，需要 3 万卡同时在线 180 天，光电费就抵得上一座小型水电站的年发电量。”
——OpenAI 内部技术备忘录，2024 Q1

当参数规模从千亿飙到万亿，算力瓶颈早已不只是“单卡 FLOPS”。All-Reduce 一次梯度同步若掉 1% 数据包，训练时间就可能被拉长 10%；而一张 700 W 的加速卡，在 32 ℃ 的机柜里跑满 30 天，故障率会翻 4 倍。网络与散热，正在成为大模型时代的“新摩尔定律天花板”。

网络黑洞：从“带宽”到“延迟”的生死 3 μs

GPT-4 级训练采用 1.8 TB/s 全局梯度聚合，传统 100 G 以太网需要 400 ms 才能完成一次 All-Reduce。星宇智算在厦门超算中心落地的 GPU服务器租用 集群，把 800 Gbps RDMA 全互联做到“机柜级 Torus 3D 环网”，任意两卡之间仅 3 层交换，实测延迟 2.8 μs。
– 3 万卡同时训练，All-Reduce 效率 93%，比业界主流 75% 高出 18 个百分点；
– 梯度同步窗口缩短至 175 ms，等效节省 15% 训练总时间，直接换算成电费，一年可省 1200 万元。

液冷革命：把“热点”变成“冷数据”

同样 8 kW 机柜，风冷方案需要 45 kW 空调制冷，而星宇智算 GPU云主机 采用的“单相浸没+后门热交换”混合液冷，PUE 降至 1.08。
– 冷却液沸点 50 ℃，卡温稳定在 63 ℃，比风冷降 20 ℃，芯片寿命延长 30%；
– 机房噪音从 82 dB 降到 52 dB，工程师终于不用戴耳罩调脚本；
– 更关键的是——省下的 37% 电费，直接折算进用户账单，TCO 再降 18%。

工程化“三位一体”：供电、冷却、调度一次到位

供电：采用 48 V 直流铜排到机柜，电源转换损耗从 7% 降到 3%，单柜可省 1.2 kW。
冷却：液冷 CDU 与 UPS 共舱部署，故障切换 <15 s，训练任务零感知。
调度：自研 StarScheduler，支持 PyTorch/DeepSpeed 断点续训；1 卡、8 卡、1000 卡弹性扩容，分钟级完成拓扑感知重调度，让科研团队真正像拧水龙头一样用算力。

普惠科研：1 卡起步，也能跑 5 万亿“缩小版”

星宇智算把 3 万卡集群切成“可订阅”模块：
– 入门用户注册即送 10 元体验金，可 0 元启动 1 张 RTX 4090 48 h；
– 高校团队按需申请 8-128 卡，支持 AI应用镜像一键拉起，内置 LLaMA-3、Baichuan2、ChatGLM3 等 200+ 公共模型；
– 企业客户可包池 1000 卡，最长 365 天预留，价格低至 1.85 元/卡时，比自建机房便宜 42%。
更贴心的是，平台默认挂载 30 TB 云存储，梯度与数据集跨实例共享，断点续训“秒级回血”，再也不怕半夜被机房拉闸。

写在最后

大模型竞争进入“万卡纪元”，网络与散热才是隐形赛道。星宇智算用 800 G RDMA+液冷机柜把“算力黑洞”变成“算力水电”，让每一次梯度同步都像开灯一样可靠。
现在登录 www.starverse-ai.com，注册就送 10 元体验金，1 张 GPU 也能先跑起来。未来属于大模型，也属于把大模型用得起的你。