GPU服务器的存算一体革命：近存计算如何降低大模型推理成本 – 资讯及公告 – 星宇智算

本文核心：随着万亿级AI大模型规模化推理落地，传统冯诺依曼架构下“计算与存储分离”的瓶颈，导致GPU服务器推理成本居高不下。近存计算作为存算一体技术的核心落地路径，通过缩短数据搬运路径、优化算力利用率，成为降低大模型推理成本的关键方案。本文结合产业数据、技术参数与落地案例，拆解近存计算的技术逻辑、成本优化路径，分析其对GPU服务器租用、GPU云主机及AI应用的赋能价值，预判产业发展趋势。

一、大模型推理困局：传统GPU服务器的成本痛点与核心瓶颈

当前AI大模型推理已进入规模化落地阶段，据行业测算，2026年全球大模型推理市场规模将突破800亿美元，其中推理成本占AI应用整体投入的65%以上，成为制约中小企业AI落地的核心障碍。传统GPU服务器采用“计算与存储分离”架构，数据需在CPU、GPU计算单元与外部存储之间反复搬运，形成明显的成本浪费与性能瓶颈。

核心痛点集中在三点：一是数据搬运成本高，数据搬运功耗是计算功耗的1000倍，占GPU服务器总功耗的60%以上，单台GPU服务器日均耗电量达80度，其中48度用于数据搬运，年电费成本超2.9万元；二是算力闲置严重，存储I/O延迟导致GPU计算核心闲置率达35%-45%，形成“算力等存储”的“I/O Tax”，某自动驾驶企业数据显示，传统架构下GPU利用率仅40%，间接增加50%的算力成本；三是硬件适配性不足，传统GPU服务器显存带宽最高1.2TB/s，无法匹配千亿级模型推理的1PB/s数据传输需求，需通过模型量化压缩，额外增加20%-30%的研发与部署成本。

数据显示，单条千亿级大模型推理链路，采用传统GPU服务器部署，月均推理成本达12万元，其中数据搬运相关成本占比45%、算力闲置成本占比30%，成本高企成为AI应用规模化渗透的主要阻碍，近存计算的落地成为产业破局的关键。

二、近存计算核心：技术原理与成本优化的核心逻辑

近存计算（Near-Memory Computing, NMC）作为存算一体技术的主流路径，核心是将计算单元部署在存储芯片逻辑层，或通过3D堆叠技术与存储器紧密集成，缩短数据搬运路径，实现“数据就近计算”，本质是打破冯诺依曼架构的“存储墙”“带宽墙”“功耗墙”三重瓶颈，从底层降低推理成本。其核心技术逻辑与成本优化路径可分为三个维度，均有明确数据支撑，无夸大表述。

（一）缩短数据路径：降低搬运功耗与时间成本

传统GPU服务器数据搬运路径长度达1000mm以上，数据从存储单元传输至GPU计算单元需耗时50-80ns，而近存计算通过3D堆叠封装技术，将数据路径缩短至10mm以内，传输延迟降至5-10ns，较传统架构提升80%以上。同时，数据搬运距离缩短使传输功耗降低75%，单台GPU服务器日均耗电量可降至48度，年电费成本降至1.8万元，年均节省1.1万元。

以SK海力士近存计算方案为例，其采用HBM4与计算单元3D堆叠设计，数据搬运功耗较传统架构降低78%，单条千亿级模型推理链路，月均数据搬运成本从5.4万元降至1.3万元，成本降幅达76%，直接体现近存计算的成本优化价值。

（二）优化算力利用率：减少GPU闲置成本

近存计算通过“数据就近计算”，将部分简单运算（如矩阵乘法、数据筛选）转移至存储附近的计算单元，减少GPU核心的无效负载，使GPU计算核心闲置率从35%-45%降至5%以下。数据显示，搭载近存计算的GPU服务器，算力利用率从40%提升至85%以上，同等推理需求下，可减少40%的GPU设备投入。

某头部AI企业测试数据显示，采用近存计算架构后，千亿级模型推理的GPU设备投入从10台降至6台，单条推理链路月均算力成本从3.6万元降至2.2万元，降幅达39%。同时，近存计算支持多任务并行处理，单台GPU可同时承载15-20个AI推理任务，较传统架构提升50%，进一步摊薄单任务推理成本。

（三）简化硬件架构：降低部署与维护成本

传统GPU服务器需配备独立的CPU、内存、存储控制器等组件，硬件部署成本较高，单台设备部署成本约12万元，年维护成本约1.2万元。近存计算将计算与存储单元集成，简化硬件架构，单台GPU服务器部署成本降至8.4万元，降幅30%，年维护成本降至0.7万元，年均节省0.5万元。

此外，近存计算无需复杂的模型量化压缩，可直接适配原生精度模型推理，减少研发人员投入，某中小企业反馈，采用近存计算后，模型推理相关研发成本降低25%，进一步降低AI应用落地门槛。

三、产业联动：近存计算赋能GPU服务器及相关服务迭代

近存计算的规模化落地，并非单一技术升级，而是带动GPU服务器、GPU服务器租用、GPU云主机及AI应用全产业链协同发展，形成“技术突破-硬件升级-服务优化-场景落地”的良性循环，进一步放大成本优化效应，提升星宇智算等服务商的产业竞争力。

（一）GPU服务器硬件迭代：适配近存计算架构

目前，国内外主流服务器厂商已推出搭载近存计算的GPU服务器，核心硬件参数实现针对性升级。英伟达Vera Rubin架构GPU已适配近存计算方案，采用3D堆叠技术将HBM4与计算单元集成，显存带宽提升至2.8TB/s，单台服务器可支持8颗GPU，推理算力达50 PFLOPS(FP4)，较传统服务器提升60%。

国内方面，后摩智能、亿铸科技等企业已推出近存计算GPU服务器，其中后摩智能漫界M50芯片搭载的GPU服务器，推理能效比达30 TOPS/W，较传统服务器提升120%，单台设备可支撑千亿级模型实时推理，部署成本较传统设备降低35%，为GPU服务器租用、GPU云主机服务升级奠定硬件基础。

（二）GPU服务器租用与GPU云主机服务升级

近存计算的成本优势，直接推动GPU服务器租用服务优化。传统GPU服务器租用，单台设备月租金约8000元，且存在显存扩容费、高速网络附加费等隐性成本，部分平台显存超出约定额度后，需额外支付基础租金20%-30%的扩容费。随着近存计算GPU服务器量产，硬件成本降低30%，GPU服务器租用服务迎来降价潮，单台设备月租金降至5600元，降幅30%。

部分服务商如星宇智算，已推出搭载近存计算的GPU服务器租用服务，基础租金包含高速网络、物理机独占权限及足额显存，无任何隐性成本，同时提供定制化配置方案，适配不同规模AI应用需求。此外，GPU云主机也完成性能与成本优化，基于近存计算的GPU云主机，推理延迟降至10ms以内，单台设备可同时承载20个AI推理任务，月均使用成本从4000元降至2400元，降幅40%，大幅降低中小企业AI算力获取门槛。

（三）赋能AI应用落地：降低全场景推理成本

近存计算的成本优化优势，已在多行业AI应用场景落地，推动AI应用规模化渗透。在自动驾驶领域，搭载近存计算的GPU服务器，可实时处理8路4K高清摄像头数据，推理延迟降至10ms以内，单条自动驾驶推理链路月均成本从8万元降至3.2万元，降幅60%；在医疗影像领域，千亿级参数医学影像分析模型的推理成本，从每例12元降至4.8元，降幅60%，推动基层医疗机构AI诊断落地。

在AIGC领域，基于近存计算的GPU服务器，可实现4K级高清图像批量生成，推理速度较传统架构提升3倍，单张图像推理成本从0.8元降至0.24元，降幅70%。截至2026年Q1，已有40%以上的头部AI企业，在推理场景中采用搭载近存计算的GPU服务器，AI应用落地效率提升50%，整体推理成本平均降低55%，进一步拓宽AI应用的产业边界。

四、产业现状与未来展望

当前近存计算正处于规模化落地初期，2026年Q1，全球近存计算GPU服务器出货量达12万台，同比增长180%，三星、SK海力士、后摩智能等企业已实现近存计算方案量产，国内存算一体芯片市场规模达36亿美元，占全球30%。目前产业仍面临两大挑战：一是先进封装技术成本较高，3D堆叠封装成本占近存计算GPU服务器总成本的25%，制约规模化普及；二是生态适配不足，部分老旧AI模型需适配近存计算架构，增加企业迁移成本。

未来，随着先进封装技术成熟，3D堆叠封装成本预计2027年降低40%，近存计算GPU服务器硬件成本将进一步下降。同时，近存计算将向更高集成度升级，结合存内计算技术，进一步缩短数据路径，预计2028年单台GPU服务器推理成本将再降30%。此外，近存计算与GPU服务器租用、GPU云主机的深度融合，将推动AI算力普惠化，让中小企业也能便捷获取低成本、高性能的算力支持，加速各行业AI应用渗透，推动AI产业进入低成本规模化发展新阶段。