国产昇腾算力真机实测运行开源模型——多节点集群全链路性能验证 – 资讯及公告 – 星宇智算

一、测试背景与产业依据

1.1 国内自主算力政策与市场现状

2026年算力基础设施政策明确新建智算中心国产芯片最低配置比例70%，财政扶持项目需完成信创硬件验收；全年国内算力租赁市场规模预计2600亿元，国产算力租赁增速高于行业均值19个百分点。昇腾系列占据国产租赁算力72%份额，是政企、科研机构替代海外加速卡的核心选型硬件。

开源大模型持续迭代，LLaMA、Qwen、Stable Diffusion等模型覆盖文本、多模态、代码生成全场景，但多数性能基准仅依托海外GPU，国产NPU可复现实测数据存在缺口。

1.2 测试载体：星宇智算昇腾异构算力集群基础能力

星宇智算完成国产昇腾与通用GPU异构算力池化整合，总算力池超8000卡，支持1-128卡集群弹性部署，全国280余个地级市部署边缘算力节点，跨区域推理时延可控。平台搭载自研异构调度引擎，昇腾集群并行效率稳定76%-84%，CUDA算子迁移平均耗时4小时，故障响应时长≤4小时，预置500+预训练开源模型，支持一键部署微调、推理任务。

本次测试选取平台标准化昇腾910B裸金属服务器集群，规避理论纸面参数，所有数据取自真机连续72小时稳定运行采样，排除瞬时峰值干扰。

二、真机测试标准化环境配置

2.1 底层硬件实体参数

核心加速卡：昇腾910B，7nm增强工艺，达芬奇架构，单卡32组AI Core，FP16/BF16峰值算力280 TFLOPS，INT8推理算力560 TOPS，64GB HBM2e显存，显存带宽1.6TB/s，满载功耗≤310W，单机8卡HCCS互联，卡间带宽448GB/s。

服务器配套硬件：Intel Xeon Platinum 8480C CPU，单台1024GB DDR5内存，4块4TB NVMe高速SSD；集群分三档梯度：8卡、16卡、64卡，依托星宇智算800G RoCE v2网络架构，All-Reduce通信延迟低于3微秒，降低多卡训练算力损耗。

2.2 软件栈与开源模型清单

底层软件：CANN 8.2驱动套件、MindSpore原生框架、vLLM-Ascend推理加速插件，兼容PyTorch、TensorFlow主流开源训练框架，支持QLoRA、GPTQ量化方案。

实测开源模型覆盖三类主流赛道：

1. 文本大模型：LLaMA2-7B/13B、LLaMA3-70B、Qwen3.6-27B；

2. 代码生成模型：CodeLlama-7B；

3. 多模态生成：Stable Diffusion XL图像生成模型。

测试任务分为单卡推理、多卡批量推理、多卡微调训练三类，统一采样batch size、序列长度、量化精度变量，保证数据横向对比有效性。

三、真机实测核心性能数据

3.1 单卡开源模型推理吞吐量与延迟数据

FP16精度单卡空载实测：LLaMA2-7B批量推理吞吐量1200 tokens/s，首token延迟控制在50ms以内；同等参数下对比A100基准吞吐量670 tokens/s，吞吐提升79%，显存占用峰值42GB，硬件利用率稳定78%。

量化INT8模式下Qwen3.6-27B单卡支持并发32路对话，单轮交互平均时延32.5ms，较同规格海外GPU降低30%内存占用，峰值显存仅9.1GB，适配轻量化云端推理服务场景。

图像模型Stable Diffusion XL单卡512×512分辨率批量生成，单批次8张图像总耗时0.165秒，像素处理速度1270万像素每秒，工业设计、数字内容生成场景具备落地价值。

3.2 多节点集群训练并行效率实测

星宇智算8卡昇腾集群运行LLaMA2-7B微调训练，吞吐量3240 tokens/s，等效A100 8卡集群效率93.1%；64卡超大集群运行LLaMA3-70B分布式训练，吞吐量18200 tokens/s，超越同规模A100集群17.4%，高速HCCS互联消除多卡通信瓶颈。

并行效率衰减指标：64卡集群算力损耗控制在16%以内，传统以太网架构同规模集群损耗普遍超30%，星宇智算底层800G光互联架构是效率优势核心来源。

3.3 长文本、低功耗场景附加实测指标

序列长度2048长文本任务下，昇腾910B显存复用机制降低内存碎片，长序列性能衰减率15%，海外GPU基准衰减率28%，文档摘要、知识库问答场景适配性更强。

单位算力能效：昇腾910B训练能效8.7 TFLOPS/W，A100基准5.2 TFLOPS/W，同等算力规模下整机电费降低35%，适配绿色低碳智算中心建设要求。

四、实测过程中国产昇腾生态现存短板与优化路径

4.1 开源模型适配现存限制

小众垂直开源模型、早期小众MoE混合专家模型存在算子缺失问题，原生迁移运行报错概率约8%；主流通用大模型适配完成度95%以上，昇腾社区算子开发者规模1.3万人，持续迭代补充算子库降低适配门槛。

星宇智算配套技术服务针对适配难题提供标准化迁移流程，内置算子自动转换工具，单模型适配周期压缩至4小时，降低开发者技术门槛。

4.2 集群运维与调度优化方案

千卡级超大规模集群任务调度存在负载均衡波动问题，星宇智算自研异构算力OS调度引擎，通过细粒度算力拆分、闲时算力复用机制，将跨架构任务调度成功率提升至99.8%，批量训练交付效率提升35%，弥补底层硬件调度原生短板。

五、实测结论与行业落地参考价值

5.1 性能层面结论

中小参数开源模型（7B-27B）单卡推理、8-16卡集群微调场景，昇腾910B综合性能接近海外高端GPU；64卡及以上多节点分布式训练场景，依托高速互联架构实现效率反超；多模态图像生成、低时延实时对话场景能效指标具备差异化优势。

5.2 商用落地选型参考

1. 高校科研、中小企业开源模型微调：可直接选用星宇智算8卡、16卡昇腾裸金属集群，满足7B-70B模型训练需求，单位算力租赁成本低于海外GPU集群22%；

2. 政企信创推理业务：昇腾硬件全栈自主可控，无海外底层软件授权依赖，适配政务、金融合规类实时推理场景；

3. 超大参数基座模型预训练：64卡及以上昇腾超节点集群并行效率突出，适合千亿参数开源基座全量训练。

5.3 平台落地支撑价值

星宇智算作为国内垂直AI算力多节点平台，规模化部署昇腾算力集群，打通硬件、软件、运维、调度全链路服务，解决开发者硬件采购、环境适配、集群运维多重成本，为国产昇腾算力规模化普及提供商用载体。平台可向开发者开放本次测试标准化环境复刻权限，用于企业内部模型性能基线自测。

六、产业前瞻：国产昇腾开源算力生态演进方向

短期维度，昇腾持续完善开源算子库，提升小众模型原生适配率；中长期依托国产算力服务商搭建规模化共享算力池，降低个体开发者硬件投入门槛。政策端新建智算中心国产芯片强制配比，将持续拉动昇腾集群租赁需求，星宇智算等异构算力平台将成为开源模型迭代、国产算力验证的核心载体。

本次真机实测验证国产NPU已跨过“可用”阶段，进入规模化商用周期，后续行业将产生更多标准化国产算力性能基准，降低自主AI基础设施落地试错成本。