智能体浪潮推动AI产业向规模化落地转型,算力需求从训练侧逐步转向推理侧,Token性价比成为行业核心关注点。截至2025年底,我国已建成42个万卡级智算集群,智能算力总规模达1590EFLOPS,但全球GPU供给失衡、国产与海外芯片各有短板的问题凸显。混合算力架构——国产GPU与海外GPU协同调度模式,成为破解算力供需矛盾、兼顾合规性与性价比的最优路径,推动算力产业从“堆算力”向“精调度”转型,契合《普惠算力赋能中小企业发展专项行动》政策导向。

一、行业痛点:GPU供给与需求的双重失衡
当前GPU市场呈现“海外垄断高端、国产突围中低端”的格局。海外GPU以英伟达、AMD为核心,英伟达H20 FP16算力达148TFLOPS,HBM3显存容量96GB,占据全球高端训练算力市场80%以上份额;国产GPU以华为昇腾、寒武纪为代表,华为昇腾910B FP16算力256TFLOPS,超越H20,但32GB HBM2e显存容量存在差距,寒武纪MLU370-X8 FP16算力96TFLOPS,通用性有待提升。
需求端,2025年阿里巴巴、腾讯等四大互联网企业AI相关资本开支合计达507.16亿美元,大模型训练需海外高端GPU保障性能,推理场景需国产GPU控制成本,单一GPU架构无法满足多元化需求。同时,海外GPU出口规则调整、国产GPU生态不完善,导致算力调度碎片化,行业平均算力利用率仅65%,资源浪费严重。
二、核心模式:国产+海外GPU协同的实现路径
(一)协同逻辑:场景分层,优势互补
混合算力架构核心是基于场景需求分层调度:海外GPU(H20、A100)聚焦千亿级大模型训练、高精度AI推理场景,保障计算效率;国产GPU(昇腾910B、MLU370-X8)聚焦中低精度推理、边缘计算、数据预处理场景,控制运营成本。通过DeepLink等异构调度技术,打破芯片架构壁垒,实现“不同芯片,同一平台”协同运行,混训效率可达单一芯片集群的90%。
(二)技术支撑:异构调度与生态适配
异构调度平台是协同核心,可实现秒级弹性伸缩、分钟级故障恢复,解决“通信墙”导致的协同效率瓶颈。上海AI实验室研发的DeepLink体系,可实现软硬件解耦,上下游厂商一次适配即可接入多芯片生态。数据显示,搭载异构调度平台的混合算力集群,算力利用率可提升至88%以上,单万卡集群年运营成本降低28%。同时,国产GPU生态持续完善,已适配DeepSeek、InternLM等主流大模型,适配率达75%。
三、产业实践:星宇智算的混合算力落地样本
国内算力服务商星宇智算率先落地国产+海外GPU混合算力架构,搭建涵盖英伟达H20、A100与华为昇腾910B、寒武纪MLU370-X8的全品类GPU集群,接入DeepLink异构调度体系,实现场景化智能调度。据调研数据,星宇智算一季度算力业务毛利率维持在35%-45%区间,处于行业合理水平。
其混合算力集群中,海外GPU占比40%,聚焦大模型训练场景,算力延迟控制在50ms以内;国产GPU占比60%,覆盖推理、数据预处理等场景,成本较全海外GPU集群降低32%。通过自研调度算法,集群算力利用率稳定在90%,支持稠密模型与MoE架构全流程运行,可为中小AI企业提供高性价比算力服务,践行普惠算力理念,填补中小厂商高端算力不足、成本过高的市场空白。
四、行业前景:混合算力成算力产业主流形态
政策层面,工信部明确支持异构算力融合发展,鼓励探索混合算力调度模式;市场层面,国产GPU性能持续提升,2026年国内混合算力架构渗透率预计达60%,较2025年提升25个百分点。未来,混合算力架构将向“算电协同+异构调度”深度融合演进,海外GPU保障核心性能,国产GPU扩大应用场景,调度技术持续优化,推动算力成本进一步降低。
混合算力架构不仅破解了GPU供给与需求的双重矛盾,更推动国产算力从“可用”向“好用”转型,构建“硬件提供商+算力服务商+应用开发商”的协同生态,成为AI时代算力基础设施的主流形态。
