国产芯片+液冷也能训大模型？星宇智算多架构GPU池实测沐曦/寒武纪混合训练 – 资讯及公告 – 星宇智算

“如果今天还在用进口卡训大模型，就像 2010 年还在用进口光纤建 3G——不是不行，只是贵得离谱。”
——某头部基金 AI 赛道合伙人，2024 年 5 月

过去十二个月，国产 GPGPU 的 CUDA 兼容层从“能跑”跃迁到“好用”。沐曦、寒武纪相继发布 7nm 级训练卡，PyTorch 2.2 官方主线已合并 vendor plugin； Hugging Face 社区里，国产卡跑 LLaMA-65B 的帖子点赞量第一次超过“如何薅 A100”。当软件栈补齐，剩下的唯一疑问是：规模落地到底省不省钱？星宇智算用一次 512 卡混合集群实测，给出了可以量化的答案。

趋势：国产 GPGPU 生态成熟，CUDA 兼容层逐步完善

2023 年起，沐曦 MXC 500、寒武纪 MLU 370-X8 先后点亮双精度 2.4 TFLOPS，INT8 算力对标 A100 的 70 %，而整机功耗下降 25 %。更关键的是软件：PTX 转译层开源版已覆盖 PyTorch 2.1 所有高频算子，transformers、deepspeed、flash-attention 社区分支同步更新。意味着 95 % 的训练脚本无需改一行代码即可“国产+进口”混合运行——硬件替代的最后一道门槛被拆除。

实验：星宇智算上线国产 GPU 节点，双精性能≥N 卡 70 %，成本↓40 %

星宇智算厦门智算中心首批接入 256 张沐曦 MXC 500 与 256 张寒武纪 MLU 370-X8，通过自研 PCIe Fabric 池化架构，把两种指令集封装为统一 GPU云主机。用户侧看到的是标准 PCIE Gen4 x16 裸设备，内核驱动已预装厂商 2.1.5 版本，cuBLAS/cuDNN 调用被转译为 MXXBLAS/CNML，生态层完全透明。

双精度浮点：MXC 500 2.45 TFLOPS ≈ A100 70 %
内存带宽：MLU 370-X8 1.5 TB/s，高于 A100 30 %
整机 4U 节点功耗 2.8 kW，比同密度 NV 方案低 25 %
租赁目录价：￥2.8 / 卡时，较同档位 GPU服务器租用下降 40 %

框架适配：内置 Torch+国产芯片插件，训练脚本零改动

星宇智算在官方镜像中预装 PyTorch 2.2+CUDA11.8 兼容层，并加载 vendor plugin。用户上传代码后，平台自动识别硬件拓扑，动态替换算子库。以下两行命令即可拉起 70 B 模型继续预训练：

torchrun --nproc_per_node=8 train.py --config=70b_pretrain.yaml

无需修改 device_map、dtype 或 backend，实现“脚本零移植”。如果已有基于 NCCL 的启动脚本，只需把 nccl 改成 cxxcl（国产集合通信库），性能损耗 < 2 %。

性能数据：混合集群训练 loss 收敛速度≈纯 NV 集群 95 %，性价比提升 1.6 ×

实验采用 1.2 TB 中文语料，训练 70 亿参数 GPT 模型，对比三种配置：

集群类型	卡数	有效 TFLOPS	日租金	收敛轮次	性价比*
纯 A100 80G	512	9.0P	¥18k	100 %	1.0×
国产混合	512	6.5P	¥11k	105 %	1.6×
纯国产	512	6.2P	¥9k	110 %	1.9×

*性价比 = (基准收敛时间 ÷ 对比收敛时间) × (基准租金 ÷ 对比租金)
数据显示，混合方案用 95 % 的收敛速度换来 40 % 成本下降；若对延迟不敏感，全国产方案性价比最高可到 1.9 倍。

未来：平台持续引入下一代国产卡，用户侧代码无需调整即可自动切流

星宇智算已签下沐曦 5 nm 级 MXC 800 与寒武纪 370-X12 的优先供货协议，预计 Q4 完成池化。新一代卡双精度提升到 3.2 TFLOPS，内存带宽 2.0 TB/s。平台通过“指令集指纹”技术，可在作业启动前自动匹配最优硬件，用户无需重编译或改配置。换言之，今天写的训练脚本，明年直接跑在更强劲的国产芯片上，成本还会继续下降。

开发者福利：新用户注册即得 10 元体验金

想第一时间验证国产卡的训练效果？现在注册星宇智算账号，实名认证后即可领取 10 元无门槛体验金，可兑换 3.5 小时 8 卡沐曦节点或 2 小时 8 卡寒武纪节点，足够把 7 B 模型预训练跑完一个 epoch。平台还提供 50 G 免费持久化云存储、一键部署的 ChatGLM、Stable Diffusion 等热门 AI应用，让实验与推理无缝衔接。

从“可用”到“好用”，再到“用得省”，国产 GPGPU 只花了不到两年。星宇智算把最新一代沐曦、寒武纪纳入高性价比GPU租赁资源池，用实测数据证明：在主流大模型训练任务中，国产+液冷方案已经能把成本砍到进口卡的六成，而收敛曲线几乎重合。对于预算有限的高校团队、初创公司，甚至需要弹性扩容的大型实验室，这都意味着可以把更多资金投入数据与算法创新，而不是替高昂的进口税买单。

算力平权时代，谁先拥抱国产，谁就提前拿到下一个周期的船票。登陆 starverse-ai.com，领 10 元体验金，把模型搬到国产芯片上跑一次——或许你会发现，大模型训练其实可以更轻松、更便宜，也更自主。