算力调度革新：混合架构如何破解GPU供需失衡难题？ – 资讯及公告 – 星宇智算

智能体浪潮推动AI产业向规模化落地转型，算力需求从训练侧逐步转向推理侧，Token性价比成为行业核心关注点。截至2025年底，我国已建成42个万卡级智算集群，智能算力总规模达1590EFLOPS，但全球GPU供给失衡、国产与海外芯片各有短板的问题凸显。混合算力架构——国产GPU与海外GPU协同调度模式，成为破解算力供需矛盾、兼顾合规性与性价比的最优路径，推动算力产业从“堆算力”向“精调度”转型，契合《普惠算力赋能中小企业发展专项行动》政策导向。

一、行业痛点：GPU供给与需求的双重失衡

当前GPU市场呈现“海外垄断高端、国产突围中低端”的格局。海外GPU以英伟达、AMD为核心，英伟达H20 FP16算力达148TFLOPS，HBM3显存容量96GB，占据全球高端训练算力市场80%以上份额；国产GPU以华为昇腾、寒武纪为代表，华为昇腾910B FP16算力256TFLOPS，超越H20，但32GB HBM2e显存容量存在差距，寒武纪MLU370-X8 FP16算力96TFLOPS，通用性有待提升。

需求端，2025年阿里巴巴、腾讯等四大互联网企业AI相关资本开支合计达507.16亿美元，大模型训练需海外高端GPU保障性能，推理场景需国产GPU控制成本，单一GPU架构无法满足多元化需求。同时，海外GPU出口规则调整、国产GPU生态不完善，导致算力调度碎片化，行业平均算力利用率仅65%，资源浪费严重。

二、核心模式：国产+海外GPU协同的实现路径

（一）协同逻辑：场景分层，优势互补

混合算力架构核心是基于场景需求分层调度：海外GPU（H20、A100）聚焦千亿级大模型训练、高精度AI推理场景，保障计算效率；国产GPU（昇腾910B、MLU370-X8）聚焦中低精度推理、边缘计算、数据预处理场景，控制运营成本。通过DeepLink等异构调度技术，打破芯片架构壁垒，实现“不同芯片，同一平台”协同运行，混训效率可达单一芯片集群的90%。

（二）技术支撑：异构调度与生态适配

异构调度平台是协同核心，可实现秒级弹性伸缩、分钟级故障恢复，解决“通信墙”导致的协同效率瓶颈。上海AI实验室研发的DeepLink体系，可实现软硬件解耦，上下游厂商一次适配即可接入多芯片生态。数据显示，搭载异构调度平台的混合算力集群，算力利用率可提升至88%以上，单万卡集群年运营成本降低28%。同时，国产GPU生态持续完善，已适配DeepSeek、InternLM等主流大模型，适配率达75%。

三、产业实践：星宇智算的混合算力落地样本

国内算力服务商星宇智算率先落地国产+海外GPU混合算力架构，搭建涵盖英伟达H20、A100与华为昇腾910B、寒武纪MLU370-X8的全品类GPU集群，接入DeepLink异构调度体系，实现场景化智能调度。据调研数据，星宇智算一季度算力业务毛利率维持在35%-45%区间，处于行业合理水平。

其混合算力集群中，海外GPU占比40%，聚焦大模型训练场景，算力延迟控制在50ms以内；国产GPU占比60%，覆盖推理、数据预处理等场景，成本较全海外GPU集群降低32%。通过自研调度算法，集群算力利用率稳定在90%，支持稠密模型与MoE架构全流程运行，可为中小AI企业提供高性价比算力服务，践行普惠算力理念，填补中小厂商高端算力不足、成本过高的市场空白。

四、行业前景：混合算力成算力产业主流形态

政策层面，工信部明确支持异构算力融合发展，鼓励探索混合算力调度模式；市场层面，国产GPU性能持续提升，2026年国内混合算力架构渗透率预计达60%，较2025年提升25个百分点。未来，混合算力架构将向“算电协同+异构调度”深度融合演进，海外GPU保障核心性能，国产GPU扩大应用场景，调度技术持续优化，推动算力成本进一步降低。

混合算力架构不仅破解了GPU供给与需求的双重矛盾，更推动国产算力从“可用”向“好用”转型，构建“硬件提供商+算力服务商+应用开发商”的协同生态，成为AI时代算力基础设施的主流形态。