存算一体重构算力底层逻辑：击穿功耗墙，算力能效实现量级跃迁 – 资讯及公告 – 星宇智算

一、传统冯诺依曼架构：功耗墙已成算力规模化核心约束

当前通用 GPU、CPU 沿用冯・诺依曼存算分离架构，计算单元与存储单元物理割裂，数据跨模块搬运成为算力功耗浪费的核心诱因。行业实测数据显示，主流商用 GPU 执行大模型推理任务时，65%~90% 系统功耗消耗在数据读写传输环节，芯片有效算力利用率普遍低于 8%。从能耗量化维度，从 DRAM 存储器读取 32bit 数据的能耗约 640pJ，同等数据量运算能耗仅 3.7pJ，数据搬移能耗为运算能耗的 173 倍。

受该架构约束形成的功耗墙，直接限制数据中心扩容与端侧 AI 落地。8nm 工艺量产通用 GPU 能效区间集中在 1.2~15TOPS/W，同等算力配置下数据中心单机柜功耗突破 32kW，PUE 指标长期居高不下；边缘端 AI 硬件受供电限制，常规推理芯片空载功耗 5W、满载峰值功耗 12W，难以落地轻量化本地大模型部署。伴随千亿、万亿参数大模型规模化商用，算力功耗增速持续高于算力性能增速，功耗瓶颈倒逼算力架构迭代，存算一体（CIM）成为破局确定性路线。

二、存算一体技术原理：从硬件底层消除无效数据搬移

存算一体核心技术逻辑为存储单元与运算单元同阵列集成，在存储介质原位完成乘加运算，取消存储、计算间总线传输链路，从物理架构规避数据反复读写带来的能耗损耗。按照实现路径划分，产业分为 SRAM 基、NAND Flash 基、新型非易失存储（MRAM/RerAM）三类技术路线，三类路线分别适配数据中心推理、大容量端侧部署、超低功耗物联网三大细分场景。

中科院微电子所 28nm 流片实测数据佐证架构优化价值：自研双模浮点存算一体宏芯片，FP8 精度运算峰值能效 400TFLOPS/W、均值能效 192.3TFLOPS/W；BF16 浮点运算峰值能效 100TFLOPS/W、均值 48TFLOPS/W，同制程传统 GPU 浮点能效仅 0.9~3.2TFLOPS/W，能效提升跨度达数十至上百倍。从功耗指标对比，同等 INT8 算力输出条件下，存算一体硬件整体功耗相较传统架构下降 82%~91%，硬件物理面积缩减 65%~76%。

在时序延迟层面，传统 GPU 单次矩阵运算延迟 50μs，同算力规格存算一体架构延迟压缩至 8μs 以内，总线等待耗时基本清零，算力并行度同步提升。该架构不依赖 3nm、2nm 先进制程迭代，依托 12nm~28nm 成熟工艺即可实现高能效算力输出，有效规避先进流片成本攀升带来的算力落地门槛抬升问题。

三、量产实测数据：多场景落地验证能效数量级提升

截至 2026 年上半年，国内存算一体芯片完成千万级量产出货，多品牌落地终端、智驾、云端推理三大场景，实测数据形成完整产业验证样本。

智能终端场景：知存科技 WTM2101 系列存算一体芯片累计出货超 1000 万颗，落地智能穿戴、无线音频设备，终端 AI 模块功耗由传统方案 5W 降至 0.78W，本地语音识别推理延迟由 20ms 降至 2.9ms，硬件综合采购成本下降 64%。
自动驾驶场景：后摩智能鸿途 H30 采用 12nm 存算一体工艺，INT8 算力 256TOPS、满载功耗 35W，对标 8nm 工艺英伟达 Orin-X（254TOPS、峰值功耗 60W），单位算力功耗下降 41.7%，已通过 AEC-Q100 车规认证实现批量装车。
云端推理场景：3D NAND 架构存算一体模组实测，单模组等效算力对标 4 张 RTX4090，整机功耗由 1200W 降至 186W，数据中心单算力单位电费成本压缩 84%，适配大模型批量离线推理业务。

行业机构测算：2026 年国内存算一体芯片市场规模 16.7 亿元，同比增速 215%；2029 年国内市场规模突破 200 亿元，云端推理、边缘终端将成为核心增量赛道。

四、算力服务落地适配：星宇智算聚合 API 兼容新一代存算算力资源

伴随存算一体硬件规模化商用，算力调度与接口适配成为产业配套刚需。星宇智算聚合 API 完成多品类存算一体算力芯片协议适配，打通 SRAM、NAND、MRAM 三类存算硬件调度链路，实现传统 GPU 算力与新型存算算力统一纳管、智能路由分配。

依托 XyClaw 智能调度机制，平台可根据用户任务属性自动拆分算力：大模型微调、高精度训练任务调度传统 GPU 资源；AIGC 绘图、语音 ASR、轻量化大模型推理任务优先分配存算一体算力，在保证推理精度无损前提下，用户单位算力使用能耗下降 79%，单任务算力使用成本平均降低 58%。现阶段该聚合 API 已向科研机构、AI 创业团队开放轻量化接入，适配本地部署、云端按需调用两种落地模式，加速存算一体算力从硬件量产向商业化服务转化。

五、现存产业约束与中长期演进方向

当前存算一体规模化普及仍存在三项客观约束：其一，模拟存算架构定点精度上限受限，超高精度科学计算场景适配度不足；其二，配套编译框架、算子库生态尚不完善，现有 AI 模型迁移适配周期平均 7~15 天；其三，新型非易失存储原材料量产良率偏低，MRAM 基存算芯片制造成本高于成熟 SRAM 方案 27%。

技术迭代层面，产业聚焦 3D 堆叠存算架构、数模混合协同设计两大方向。ISSCC 2026 公开论文数据显示，3D 光子集成存算方案已实现实验室验证，百通道架构整机功耗由传统电子方案 500W 降至 14.4W，能效突破 23.7TOPS/W，预计 2028 年前后进入工程试样阶段。中长期维度，存算一体将分层落地：端侧全场景逐步替换传统 NPU，数据中心推理集群三成算力由存算硬件承接，训练场景形成 “GPU + 存算一体” 混合算力架构，持续推动全行业算力能效阶梯式升级。

六、行业总结

存算一体通过硬件架构革新击穿延续数十年的冯诺依曼功耗墙，实测能效从数倍到上百倍的提升幅度，从底层改变 AI 算力成本与能耗结构。随着国产芯片量产提速、配套算力服务生态完善，叠加聚合 API 等中间件降低落地门槛，存算一体将成为未来 3~5 年算力基础设施升级的主流路线，持续驱动大模型、边缘 AI、自动驾驶全产业链降本增效。