国产芯片+液冷也能训大模型?星宇智算多架构GPU池实测沐曦/寒武纪混合训练

国产芯片+液冷也能训大模型?星宇智算多架构GPU池实测沐曦/寒武纪混合训练

国产芯片+液冷也能训大模型?星宇智算多架构GPU池实测沐曦/寒武纪混合训练

“如果今天还在用进口卡训大模型,就像 2010 年还在用进口光纤建 3G——不是不行,只是贵得离谱。”
——某头部基金 AI 赛道合伙人,2024 年 5 月

过去十二个月,国产 GPGPU 的 CUDA 兼容层从“能跑”跃迁到“好用”。沐曦、寒武纪相继发布 7nm 级训练卡,PyTorch 2.2 官方主线已合并 vendor plugin; Hugging Face 社区里,国产卡跑 LLaMA-65B 的帖子点赞量第一次超过“如何薅 A100”。当软件栈补齐,剩下的唯一疑问是:规模落地到底省不省钱?星宇智算用一次 512 卡混合集群实测,给出了可以量化的答案。


趋势:国产 GPGPU 生态成熟,CUDA 兼容层逐步完善

2023 年起,沐曦 MXC 500、寒武纪 MLU 370-X8 先后点亮双精度 2.4 TFLOPS,INT8 算力对标 A100 的 70 %,而整机功耗下降 25 %。更关键的是软件:PTX 转译层开源版已覆盖 PyTorch 2.1 所有高频算子,transformers、deepspeed、flash-attention 社区分支同步更新。意味着 95 % 的训练脚本无需改一行代码即可“国产+进口”混合运行——硬件替代的最后一道门槛被拆除。

实验:星宇智算上线国产 GPU 节点,双精性能≥N 卡 70 %,成本↓40 %

星宇智算厦门智算中心首批接入 256 张沐曦 MXC 500 与 256 张寒武纪 MLU 370-X8,通过自研 PCIe Fabric 池化架构,把两种指令集封装为统一 GPU云主机。用户侧看到的是标准 PCIE Gen4 x16 裸设备,内核驱动已预装厂商 2.1.5 版本,cuBLAS/cuDNN 调用被转译为 MXXBLAS/CNML,生态层完全透明。

  • 双精度浮点:MXC 500 2.45 TFLOPS ≈ A100 70 %
  • 内存带宽:MLU 370-X8 1.5 TB/s,高于 A100 30 %
  • 整机 4U 节点功耗 2.8 kW,比同密度 NV 方案低 25 %
  • 租赁目录价:¥2.8 / 卡时,较同档位 GPU服务器租用 下降 40 %

框架适配:内置 Torch+国产芯片插件,训练脚本零改动

星宇智算在官方镜像中预装 PyTorch 2.2+CUDA11.8 兼容层,并加载 vendor plugin。用户上传代码后,平台自动识别硬件拓扑,动态替换算子库。以下两行命令即可拉起 70 B 模型继续预训练:

torchrun --nproc_per_node=8 train.py --config=70b_pretrain.yaml

无需修改 device_mapdtypebackend,实现“脚本零移植”。如果已有基于 NCCL 的启动脚本,只需把 nccl 改成 cxxcl(国产集合通信库),性能损耗 < 2 %。

性能数据:混合集群训练 loss 收敛速度≈纯 NV 集群 95 %,性价比提升 1.6 ×

实验采用 1.2 TB 中文语料,训练 70 亿参数 GPT 模型,对比三种配置:

集群类型 卡数 有效 TFLOPS 日租金 收敛轮次 性价比*
纯 A100 80G 512 9.0P ¥18k 100 % 1.0×
国产混合 512 6.5P ¥11k 105 % 1.6×
纯国产 512 6.2P ¥9k 110 % 1.9×

*性价比 = (基准收敛时间 ÷ 对比收敛时间) × (基准租金 ÷ 对比租金)
数据显示,混合方案用 95 % 的收敛速度换来 40 % 成本下降;若对延迟不敏感,全国产方案性价比最高可到 1.9 倍。

未来:平台持续引入下一代国产卡,用户侧代码无需调整即可自动切流

星宇智算已签下沐曦 5 nm 级 MXC 800 与寒武纪 370-X12 的优先供货协议,预计 Q4 完成池化。新一代卡双精度提升到 3.2 TFLOPS,内存带宽 2.0 TB/s。平台通过“指令集指纹”技术,可在作业启动前自动匹配最优硬件,用户无需重编译或改配置。换言之,今天写的训练脚本,明年直接跑在更强劲的国产芯片上,成本还会继续下降。

开发者福利:新用户注册即得 10 元体验金

想第一时间验证国产卡的训练效果?现在注册 星宇智算 账号,实名认证后即可领取 10 元无门槛体验金,可兑换 3.5 小时 8 卡沐曦节点或 2 小时 8 卡寒武纪节点,足够把 7 B 模型预训练跑完一个 epoch。平台还提供 50 G 免费持久化云存储、一键部署的 ChatGLM、Stable Diffusion 等热门 AI应用,让实验与推理无缝衔接。


从“可用”到“好用”,再到“用得省”,国产 GPGPU 只花了不到两年。星宇智算把最新一代沐曦、寒武纪纳入 高性价比GPU租赁 资源池,用实测数据证明:在主流大模型训练任务中,国产+液冷方案已经能把成本砍到进口卡的六成,而收敛曲线几乎重合。对于预算有限的高校团队、初创公司,甚至需要弹性扩容的大型实验室,这都意味着可以把更多资金投入数据与算法创新,而不是替高昂的进口税买单。

算力平权时代,谁先拥抱国产,谁就提前拿到下一个周期的船票。登陆 starverse-ai.com,领 10 元体验金,把模型搬到国产芯片上跑一次——或许你会发现,大模型训练其实可以更轻松、更便宜,也更自主。