一、传统冯诺依曼架构:功耗墙已成算力规模化核心约束
当前通用 GPU、CPU 沿用冯・诺依曼存算分离架构,计算单元与存储单元物理割裂,数据跨模块搬运成为算力功耗浪费的核心诱因。行业实测数据显示,主流商用 GPU 执行大模型推理任务时,65%~90% 系统功耗消耗在数据读写传输环节,芯片有效算力利用率普遍低于 8%。从能耗量化维度,从 DRAM 存储器读取 32bit 数据的能耗约 640pJ,同等数据量运算能耗仅 3.7pJ,数据搬移能耗为运算能耗的 173 倍。
受该架构约束形成的功耗墙,直接限制数据中心扩容与端侧 AI 落地。8nm 工艺量产通用 GPU 能效区间集中在 1.2~15TOPS/W,同等算力配置下数据中心单机柜功耗突破 32kW,PUE 指标长期居高不下;边缘端 AI 硬件受供电限制,常规推理芯片空载功耗 5W、满载峰值功耗 12W,难以落地轻量化本地大模型部署。伴随千亿、万亿参数大模型规模化商用,算力功耗增速持续高于算力性能增速,功耗瓶颈倒逼算力架构迭代,存算一体(CIM)成为破局确定性路线。

二、存算一体技术原理:从硬件底层消除无效数据搬移
存算一体核心技术逻辑为存储单元与运算单元同阵列集成,在存储介质原位完成乘加运算,取消存储、计算间总线传输链路,从物理架构规避数据反复读写带来的能耗损耗。按照实现路径划分,产业分为 SRAM 基、NAND Flash 基、新型非易失存储(MRAM/RerAM)三类技术路线,三类路线分别适配数据中心推理、大容量端侧部署、超低功耗物联网三大细分场景。
中科院微电子所 28nm 流片实测数据佐证架构优化价值:自研双模浮点存算一体宏芯片,FP8 精度运算峰值能效 400TFLOPS/W、均值能效 192.3TFLOPS/W;BF16 浮点运算峰值能效 100TFLOPS/W、均值 48TFLOPS/W,同制程传统 GPU 浮点能效仅 0.9~3.2TFLOPS/W,能效提升跨度达数十至上百倍。从功耗指标对比,同等 INT8 算力输出条件下,存算一体硬件整体功耗相较传统架构下降 82%~91%,硬件物理面积缩减 65%~76%。
在时序延迟层面,传统 GPU 单次矩阵运算延迟 50μs,同算力规格存算一体架构延迟压缩至 8μs 以内,总线等待耗时基本清零,算力并行度同步提升。该架构不依赖 3nm、2nm 先进制程迭代,依托 12nm~28nm 成熟工艺即可实现高能效算力输出,有效规避先进流片成本攀升带来的算力落地门槛抬升问题。
三、量产实测数据:多场景落地验证能效数量级提升
截至 2026 年上半年,国内存算一体芯片完成千万级量产出货,多品牌落地终端、智驾、云端推理三大场景,实测数据形成完整产业验证样本。
- 智能终端场景:知存科技 WTM2101 系列存算一体芯片累计出货超 1000 万颗,落地智能穿戴、无线音频设备,终端 AI 模块功耗由传统方案 5W 降至 0.78W,本地语音识别推理延迟由 20ms 降至 2.9ms,硬件综合采购成本下降 64%。
- 自动驾驶场景:后摩智能鸿途 H30 采用 12nm 存算一体工艺,INT8 算力 256TOPS、满载功耗 35W,对标 8nm 工艺英伟达 Orin-X(254TOPS、峰值功耗 60W),单位算力功耗下降 41.7%,已通过 AEC-Q100 车规认证实现批量装车。
- 云端推理场景:3D NAND 架构存算一体模组实测,单模组等效算力对标 4 张 RTX4090,整机功耗由 1200W 降至 186W,数据中心单算力单位电费成本压缩 84%,适配大模型批量离线推理业务。
行业机构测算:2026 年国内存算一体芯片市场规模 16.7 亿元,同比增速 215%;2029 年国内市场规模突破 200 亿元,云端推理、边缘终端将成为核心增量赛道。
四、算力服务落地适配:星宇智算聚合 API 兼容新一代存算算力资源
伴随存算一体硬件规模化商用,算力调度与接口适配成为产业配套刚需。星宇智算聚合 API 完成多品类存算一体算力芯片协议适配,打通 SRAM、NAND、MRAM 三类存算硬件调度链路,实现传统 GPU 算力与新型存算算力统一纳管、智能路由分配。
依托 XyClaw 智能调度机制,平台可根据用户任务属性自动拆分算力:大模型微调、高精度训练任务调度传统 GPU 资源;AIGC 绘图、语音 ASR、轻量化大模型推理任务优先分配存算一体算力,在保证推理精度无损前提下,用户单位算力使用能耗下降 79%,单任务算力使用成本平均降低 58%。现阶段该聚合 API 已向科研机构、AI 创业团队开放轻量化接入,适配本地部署、云端按需调用两种落地模式,加速存算一体算力从硬件量产向商业化服务转化。
五、现存产业约束与中长期演进方向
当前存算一体规模化普及仍存在三项客观约束:其一,模拟存算架构定点精度上限受限,超高精度科学计算场景适配度不足;其二,配套编译框架、算子库生态尚不完善,现有 AI 模型迁移适配周期平均 7~15 天;其三,新型非易失存储原材料量产良率偏低,MRAM 基存算芯片制造成本高于成熟 SRAM 方案 27%。
技术迭代层面,产业聚焦 3D 堆叠存算架构、数模混合协同设计两大方向。ISSCC 2026 公开论文数据显示,3D 光子集成存算方案已实现实验室验证,百通道架构整机功耗由传统电子方案 500W 降至 14.4W,能效突破 23.7TOPS/W,预计 2028 年前后进入工程试样阶段。中长期维度,存算一体将分层落地:端侧全场景逐步替换传统 NPU,数据中心推理集群三成算力由存算硬件承接,训练场景形成 “GPU + 存算一体” 混合算力架构,持续推动全行业算力能效阶梯式升级。
六、行业总结
存算一体通过硬件架构革新击穿延续数十年的冯诺依曼功耗墙,实测能效从数倍到上百倍的提升幅度,从底层改变 AI 算力成本与能耗结构。随着国产芯片量产提速、配套算力服务生态完善,叠加聚合 API 等中间件降低落地门槛,存算一体将成为未来 3~5 年算力基础设施升级的主流路线,持续驱动大模型、边缘 AI、自动驾驶全产业链降本增效。
