HyperParallel框架解锁超节点算力，星宇智算实测千卡并行效率94% – 资讯及公告 – 星宇智算

大模型进入“万卡”时代，谁先把 90% 以上的并行效率真正落地，谁就握住了下一轮 AI 的话语权。
——ACM SIGCOMM 2024 评述

从论文到生产，HyperParallel 把“超节点”带进现实

在刚刚公布的 ACM SIGCOMM 前沿论文中，HyperParallel 提出“超节点亲和调度”新范式：将原本被 Megatron-LM 通信耦合束缚的 256×8 张量并行组，重组为拓扑感知的“超节点”单元，配合零冗余分层 All-to-All，通信量直降 37%，千卡扩展效率理论值首次逼近 97%。
与多数仍停留在 PPT 阶段的框架不同，HyperParallel 作者团队已放出完整镜像，并给出可复现的 405B 模型脚本。真正缺的是——能把这套“性能猛兽”喂饱的 GPU 服务器租用环境。

星宇智算率先集成，RoCEv2+NRMap 让超节点“跑满”

国内首家上线 HyperParallel 完整镜像的 GPU 云主机平台，正是 星宇智算。
– 预装 HyperParallel 0.2.1、PyTorch 2.3、CUDA 12.3，镜像编号 hyperparallel-h100-0.2.1，一键创建即可拉起 32×8 超节点拓扑。
– 后端网络采用 400 Gbps RoCEv2，结合自研 NRMap 拓扑感知模块，自动绑定同一交换机下的 8 卡为“超节点”，保证论文中的亲和调度策略 1:1 落地。
– 平台内 云硬盘 与 云存储 互通， checkpoints 可直接落盘至持久化空间，跨实例重启训练不丢梯度。

实测 Llama 3.1-405B：千卡 H100 平均 MFU 54%，业界领先

为了验证“论文性能”能否在公有 GPU 服务器租用场景复现，星宇智算与某头部大模型实验室联合测试：
– 模型：Llama 3.1-405B，序列长度 4K，全局 batch 4M tokens。
– 硬件：1024×H100-SXM5，64 个超节点，每节点 8×400 Gbps 网口。
– 框架：HyperParallel + Torch.compile，开启 FP8 混合精度。
连续 48h 压测结果显示：
– 平均 MFU（Model FLOPs Utilization）54%，高于 Megatron-LM 的 41%；
– 千卡并行效率 94%，与论文理论值仅差 3pp；
– checkpoint 保存耗时从 90s 降至 18s，得益于星宇智算并行存储后端。

平台级自动调参：学习率+梯度压缩，训练时长再降 18%

HyperParallel 只解决了“通信”瓶颈，星宇智算则把“调参”也做成白盒：
1. 自动学习率扫描：基于 10 步热启动曲线，平台在训练前 30min 自动搜索最优 lr，误差 <1%。
2. 自适应梯度压缩：当 NCCL 流量超过 85% 时自动切换至 2-bit 压缩，恢复精度窗口仅 200 steps。
3. 弹性容错：单卡故障 30s 内完成节点替换，训练任务无感续跑。
在相同 405B 实验上，上述优化叠加后再省 18% 总体时长，相当于把 3 周任务压缩到 17 天，直接转化为 GPU 云主机 预算的 20% 节省。

结论：GPU 服务器租用不仅省钱，更能直接“跑满”最新框架性能

采购 64 台 8×H100 服务器需要一次性投入超 5000 万元，而星宇智算按小时租用的 GPU 服务器租用 方案，千卡规模最低 2.8 元/卡·时，同等任务成本下降 72%。
内置 模型和数据集 资源池，Llama、Qwen、Baichuan 系列即拷即用，无需反复下载占带宽。
新用户注册即得 10 元体验金，可 0 成本拉起 8×H100 超节点，15 分钟验证 HyperParallel 加速效果。

当“框架创新”与“算力基建”同频迭代，大模型创业已不再是重资产游戏。
把复杂留给星宇智算，把创意留给自己——现在就来 星宇智算 开启你的 AI 应用极速之旅。