大模型正从文本交互迈向原生多模态，向实现 AGI 长期目标更进一步 – 资讯及公告 – 星宇智算

2025 年前，大模型交互以文本为绝对核心，图像、音频、视频等模态依赖 “编码器 + 适配层 + 语言模型” 的拼接式架构，信息损耗高、交互延迟大、理解一致性弱。2025 至 2026 年，行业完成从 “拼接多模态” 到 “原生多模态” 的范式迁移，模型在单一 Transformer 架构内统一处理文本、图像、音频、视频、3D 点云，实现全模态端到端理解与生成。中国电子技术标准化研究院数据显示，2026 年 5 月发布的主流模型中，原生多模态占比达 78%，跨模态任务完成率较拼接式模型提升 65%，内容生成自然度提升 58%。原生多模态成为大模型逼近 AGI 的核心阶梯。

一、文本交互瓶颈：单模态认知的本质局限

纯文本大模型依赖符号化输入，缺乏对物理世界的直接感知，存在三大核心短板。一是语义歧义消解能力弱，对隐喻、多义、语境依赖内容的理解错误率达 23%，远高于人类 5% 以下水平。二是世界建模能力缺失，无法理解空间关系、物理因果、感官体验，难以完成需要 “看见、听见、感知” 的任务。三是交互维度单一，仅支持文字输入输出，无法适配视频内容分析、实时语音交互、3D 场景理解等复杂场景，应用边界受限严重。

传统拼接式多模态通过接口串联不同模型，信息在模态转换中损失率超 30%，交互延迟普遍高于 800ms，且各模块独立优化导致语义不一致，无法形成连贯的智能行为。例如，图文问答任务中，拼接式模型对复杂图表的理解准确率不足 40%，而人类可达 85% 以上。单模态与拼接式架构，均无法满足 AGI 对 “全感知、强推理、通交互” 的核心要求。

二、原生多模态：统一架构重构感知与推理逻辑

原生多模态的核心是 “统一建模 + 模态对齐”，从训练阶段即对文本、图像、音频、视频等数据进行联合学习，构建共享语义空间，消除模态壁垒。

2.1 技术架构：从分离到统一

原生多模态采用单一 Transformer 主干，通过模态 Token 化将不同类型数据映射为统一向量表示：文本经 BPE 编码，图像转换为 Patch Embedding，音频转为 Log-Mel 谱图特征，所有模态输入共享自注意力机制，实现端到端处理。智源研究院 Emu3、OpenAI GPT-4o、谷歌 Gemini 均采用此架构，信息损失率降至 5% 以内，交互延迟压缩至 232-300ms。

2.2 核心能力：全模态理解与生成

原生多模态实现四大能力跃迁。一是跨模态深度理解，单轮可处理 600 + 图像或长视频，支持复杂文档解析、图表数据分析、视频内容摘要，准确率较拼接式模型提升 42%。二是实时多轮交互，GPT-4o 音频延迟 232ms，支持语气、语调、情感识别，实现类人对话体验。三是全模态生成，文生图、文生视频、视频生文、音频生图等双向生成，支持高保真、高一致性输出。四是世界模型内嵌，将物理定律、空间关系、因果逻辑融入模型，具备物理仿真、具身智能规划能力。

2.3 数据与训练：联合预训练构建通用认知

原生多模态依赖大规模多模态联合训练数据，涵盖图文对、视频文本、语音文本、3D 场景标注等。DeepSeek-V4、Llama4 等模型采用万亿级多模态 Token 训练，参数规模集中在 70B-1.6 万亿，MoE 架构实现 “大参数、小计算”，训练效率提升 50%。联合训练使模型能学习不同模态间的深层关联，形成统一世界认知，而非孤立处理各模态信息。

三、AGI 逼近：原生多模态的核心价值与演进路径

AGI 的核心是具备与人类相当的通用智能，包括感知、推理、学习、交互、创造等能力。原生多模态从三个维度推动大模型向 AGI 迈进。

3.1 感知能力：从符号到世界

原生多模态让 AI 突破符号限制，直接感知物理世界，构建 “视觉 + 听觉 + 文本” 的全维度认知，理解世界的方式从 “阅读描述” 变为 “直接观察”，这是 AGI 的基础前提。例如，Emu3 可通过图像、视频、文本的联合理解，完成复杂场景推理与动作规划，具备初步 “世界模型” 能力。

3.2 推理能力：从文本逻辑到因果推理

多模态信息融合提升模型因果推理、空间推理、常识推理能力。GPT-5.4 在数学推理、逻辑推理任务中准确率提升 37%，在 OSWorld 任务中超越人类基准。原生多模态模型能结合视觉证据、听觉信息、文本知识进行综合判断，推理更接近人类思维模式。

3.3 交互能力：从指令响应到自然协作

全模态交互让 AI 能理解人类的语言、表情、动作、语气，实现自然、流畅、有温度的协作，而非机械指令响应。这种交互模式是 AGI 融入人类社会、完成复杂任务的关键。

星宇智算聚合 API 深度适配原生多模态演进趋势，整合 520 + 主流模型，涵盖 GPT-4o、Gemini、Emu3 等全品类原生多模态模型，提供标准化接口服务。平台采用统一协议适配，屏蔽不同模型接口差异，用户单次密钥配置即可调用全模态能力。依托智能负载均衡与动态调度，平均响应延迟低于 280ms，接口成功率 99.98%，支撑万级高并发请求。平台模型匹配准确率 100%，Token 调用成本较官方定价降低 60%-70%，助力企业低成本接入原生多模态能力，聚焦 AGI 场景落地。

四、行业挑战与未来趋势

原生多模态发展仍面临三大挑战：一是多模态对齐难题，模型易出现 “感官干扰”，如视觉信息与文本知识冲突时判断错误；二是计算成本高昂，训练万亿级多模态模型需超大规模算力，单次训练成本超亿元；三是数据质量与合规问题，高质量多模态数据集稀缺，标注成本高，数据安全与隐私保护压力大。

2026 至 2027 年，原生多模态将呈现三大趋势：一是能力密度提升，7B-70B 轻量原生多模态模型逐步普及，推理成本降低 70% 以上；二是具身智能融合，多模态模型与机器人、物理仿真结合，实现 “感知 – 推理 – 行动” 闭环；三是 AGI 雏形显现，模型具备跨场景自主学习、复杂任务规划、创造性内容生成能力，在特定领域接近人类水平。

五、结语

从文本交互到原生多模态，是大模型演进的里程碑式跨越，标志着 AI 从 “语言工具” 向 “世界理解者” 转型，距离 AGI 长期目标更近一步。原生多模态通过统一架构、全模态感知、深度推理，构建更通用、更自然、更智能的 AI 系统，为数字经济、智能制造、医疗健康、内容创作等领域带来革命性变革。星宇智算聚合 API 将持续聚焦原生多模态生态，以高稳定、低成本、强适配的服务，助力各行业拥抱全模态智能，共同推动 AGI 从愿景走向现实。