国产 GPU 替代加速，星宇智算完成寒武纪 MLU370 适配：AI 训练成本再降 40% – 资讯及公告 – 星宇智算

美国商务部再次收紧高端 GPU 出口管制，英伟达 A100/H100 对华交付全面受限。消息一出，国内头部服务器厂商透露，国产加速卡订单已排至 2027 年，交货周期从 6 个月拉长到 18 个月，“GPU 荒”升级为“生态荒”。

从缺卡到缺生态，CUDA 迁移成最大拦路虎

高端卡断供，让“算力国产化”不再停留在口号。然而，真正卡住 AI 团队脖子的并非单纯的硬件，而是软件生态——CUDA 十余年沉淀的算子库、优化策略、社区脚本，一旦迁移到国产芯片，训练效率动辄掉半，成本反而翻倍。某自动驾驶公司实测，同一套 PyTorch 代码从 A100 切换到某国产卡，TF32 算力利用率仅剩 42%，迭代周期被迫延长一倍。

星宇智算率先完成寒武纪 MLU370 节点适配，发布 BANG C 移植指南

面对“缺卡又缺生态”的双重夹击，星宇智算选择与国产芯片原厂并肩作战：仅用 4 周完成寒武纪 MLU370 整机柜适配，并上线国内首个“BANG C 一键迁移”镜像。开发者登录平台后，系统自动识别 CUDA Kernel，给出等效 BANG C 代码段、性能调优参数及算子替代方案，平均迁移工时从 2 人月压缩到 3 人日。与此同时，平台内置的 GPU服务器租用模块已上线 MLU370×8 节点，支持按需秒级开机、弹性扩容，真正做到“国产卡也能即开即用”。

实测数据：ResNet-50 训练性能达 A100 82%，成本仅 55%

在 32 台 MLU370×8 集群与同等规模 A100×8 对比测试中，ImageNet 1k 训练任务耗时 58.7 分钟，达到 A100 方案的 82%；而按平台刊例价折算，MLU370 单卡小时价仅为 A100 的 55%，综合训练成本下降 40%。更关键的是，星宇智算提供的 GPU云主机预装 NCCL 级联优化，多节点线性加速比 ≥93%，无需用户再为通信拓扑调优。

政策红利叠加，“算力券”再降 30%

北京市经信局 5 月发布《算力券实施方案》，对采购国产加速卡的 AI 企业给予 30% 现金补贴；高校、国企用户额外返还 15%。以 ResNet-50 标准训练为例，叠加星宇智算平台优惠券后，实际成本降至 A100 方案的 38%，真正实现“花小钱、跑大模型”。新用户注册即可领取 10 元体验金，零成本试用 MLU370 8 卡节点 2 小时，体验金可直抵后续租金。

不只是寒武纪，国产 GPU 一站式生态正在成型

星宇智算透露，平台 Q3 将上线昇腾 910B、天数智芯 BI 两大新卡，同步提供 MindSpore、Paddle 及 PyTorch 迁移工具链；年内计划接入 6 款国产 GPU，形成“国产 GPU 超市”。开发者只需一套账号，即可在 GPU服务器租用控制台自由切换架构，真正做到“代码零改、一键换芯”。面向 AI 应用市场，平台还将上线“国产卡专区”，聚合 CV、NLP、AIGC 等 80+ 商业模型，支持一键部署、按量计费，帮助初创团队 24 小时内完成 MVP 交付。

写在最后

当“买不到卡”成为常态，国产算力不再是备胎，而是主赛道。星宇智算用实打实的适配进度、可量化的成本优势，把“GPU 荒”变成了“国产窗口期”。如果你正为 CUDA 迁移焦头烂额，不妨打开星宇智算，注册领取 10 元体验金，让 MLU370 8 卡节点跑一遍你的模型——也许你会发现，国产 GPU 已经可用，而且比想象中更便宜。