在多模态模型普遍依赖 “语言模型 + 外挂模块” 拼接的当下,百度 ERNIE 5.0 的技术报告正式揭开面纱,带来了颠覆性的解决方案:以原生自回归框架为核心,从零开始统一训练文本、图像、视频、音频四大模态,既能深度理解又能高效生成,成为公开披露模型中首个生产级万亿参数统一自回归模型,彻底打破了传统多模态模型的 “跷跷板效应” 与模态隔阂。
其底座采用超级稀疏的 Ultra-Sparse MoE 架构,万亿参数在推理时仅激活不到 3%,既保证了模型容量,又控制了计算开销。实测数据更是惊艳:VBench 视频语义评分 83.40,语音识别 AISHELL-1 字错率低至 0.31,MATH 数学推理得分 73.89,在复杂知识问答、文档理解等任务中均大幅超越现有 SOTA 基准,堪称多模态领域的 “六边形战士”。
核心突破:拒绝拼接,原生统一四大模态
传统多模态模型的痛点在于 “浅层融合”—— 在预训练语言模型基础上外挂图像、音频等模块,导致各模态优化目标不一致,出现 “增强视觉能力就削弱语言能力” 的跷跷板效应,且理解与生成能力相互割裂。
ERNIE 5.0 的革命性在于 “原生统一”:所有模态从零开始在同一个 Transformer Backbone 中训练,通过统一 Token 空间和统一自回归目标,实现深度跨模态融合,让理解能力与生成能力相互强化,彻底摆脱拼接式架构的局限。
1. 超稀疏 MoE 架构:万亿参数的高效运行秘诀
ERNIE 5.0 采用 Ultra-Sparse MoE(混合专家)架构,核心创新在于 “模态无关的专家路由” 机制,彻底颠覆了传统 “按模态分配专家” 的固化思路:
- 共享专家池设计:构建全局共享的专家池,所有模态的 Token(文本、图像、音频、视频)均进入同一参数网络自由流动,不预先设置模态标签与专家的绑定关系;
-
智能路由调度:路由机制基于统一 Token 表征而非模态类型决策,自动为每个 Token 匹配最合适的专家。在训练过程中,专家们会自发形成 “涌现式专业化”—— 无需人工干预,部分专家自动专攻视觉任务,部分聚焦文本逻辑,还有些成为跨模态对齐的 “通才”,实现按任务分工而非按模态割裂;
-
极致稀疏激活:推理时仅激活不到 3% 的参数,让万亿参数模型的计算量可控,既保证了模型容量,又避免了算力浪费,解决了大模型规模与部署效率的矛盾。
2. 统一自回归目标:多模态的 “通用优化语言”
为实现不同模态的深度协同,ERNIE 5.0 为所有模态设计了统一的 “Next-Group-of-Tokens” 预测目标,将异构模态的学习统一到同一优化框架下:
-
文本:采用 “标准自回归 + 多 Token 预测”,兼顾准确性与推理效率;
-
视觉(图像 / 视频):通过 “Next-Frame-and-Scale” 预测,先生成低分辨率内容再逐步细化,保证视觉生成的连贯性与精细度;
-
音频:基于 “Next-Codec” 预测,贴合音频编码结构,实现自然流畅的音频生成。
这种统一目标设计,让不同模态的学习轨迹保持一致,避免了优化目标冲突导致的融合不畅,使模型既能捕获高级语义,又能保留细粒度感知细节。
关键创新:弹性训练范式,一次训练产出多个模型
传统多模态模型为适配不同算力设备,需单独训练大、中、小多个版本,耗时耗力且容易损失性能。ERNIE 5.0 首创 “弹性训练范式”,通过构建超大超网络,单次预训练即可抽取出一系列不同规格的子模型,完美平衡性能、模型大小与推理延迟:
1. 三维弹性调节,适配全场景部署
-
弹性深度(Elastic Depth):训练时随机跳过部分 Transformer 层(跳过概率 25%),让浅层网络也能独立承担计算任务,抽取出的子模型可灵活调整网络深度;
-
弹性宽度(Elastic Width):随机裁剪专家池容量(裁剪概率 20%),支持子模型按需选择专家数量,适配不同算力需求;
-
弹性稀疏度(Elastic Sparsity):动态调整每个 Token 激活的专家数,可在精度与速度之间自由权衡。
2. 零样本抽取,性能无损迁移
抽取出的子模型无需额外微调或模型压缩,可直接继承全量模型的能力。实测显示,仅使用 53.7% 的激活参数和 35.8% 的总参数,子模型性能就能接近完整模型;将推理时激活的专家数减少到 25%,可实现 15% 的推理加速,且精度损失极小,大幅降低了大模型在边缘设备、移动端等资源受限场景的部署门槛。
后训练优化:多模态强化学习,兼顾效率与稳定性
为解决万亿参数超稀疏 MoE 模型的后训练难题,ERNIE 5.0 设计了一套完整的统一多模态强化学习(UM-RL)体系,实现跨模态能力的深度对齐:
1. 效率优化:无偏重放缓存(U-RB)
针对不同长度任务导致的计算负载不均问题,通过严格的数据排序约束,在不改变数据分布的前提下,避免等待长尾任务,大幅提升训练吞吐量,解决了多模态训练中的效率瓶颈。
2. 稳定性保障:双重机制抑制熵崩塌
-
多粒度重要性采样剪裁(MISC):在 Token 级别而非序列级别进行采样剪裁,避免强化学习过程中出现的策略震荡,保证训练稳定性;
-
已掌握样本掩码(WPSM):跟踪每个查询的成功率,对已熟练掌握的样本进行掩码,将训练资源集中分配给困难任务和稀疏奖励场景,避免模型过度拟合简单样本导致的熵崩塌,推动模型持续优化低性能任务。
3. 困难任务突破:自适应提示强化学习(AHRL)
针对数学推理等奖励稀疏的复杂任务,在训练初期注入 “思维骨架” 作为引导信号,帮助模型建立推理路径;随着训练推进逐步减少提示,最终实现从 “辅助引导” 到 “独立解决” 的平滑过渡,显著提升模型在复杂任务上的表现。
性能表现:全模态均衡领先,多场景实力碾压
ERNIE 5.0 在文本、图像、视频、音频四大模态的理解与生成任务中均展现出顶尖性能,关键基准测试成绩亮眼:
-
文本与推理:MMLU-Pro 复杂知识问答得分 75.58(超越 SOTA 基准 1.1 倍),MATH 数学推理 73.89 分,HumanEval + 代码生成 80.86 分,ChineseSimpleQA 知识问答准确率 90.09%;
-
视觉理解与生成:DocVQA 文档理解得分 95.45(超越基准 1.1 倍),VBench 视频语义评分 83.40,图像生成 GenEval 得分 90.1,接近顶尖视觉生成模型;
-
音频识别:AISHELL-1 语音识别字错率低至 0.31,远超现有模型的 0.63,达到行业领先水平。
此外,模型在指令跟随、跨模态对齐等任务中也表现突出,展现出 “全模态无短板” 的均衡实力。
技术细节:模态处理与工程优化
技术报告还披露了多模态处理与工程实现的关键细节:
-
模态预处理:文本采用定制位置编码变体;图像 / 视频通过时空 Patch 化策略转化为统一 Token;音频采用离散化编码方案,确保异构模态的 Token 兼容性;
-
工程优化:基于 PaddlePaddle 框架实现千卡集群通信优化,设计高效注意力机制支持超长上下文处理,为模型的大规模训练与部署提供了坚实支撑。
总结与展望
ERNIE 5.0 的发布,标志着多模态模型从 “拼接融合” 迈入 “原生统一” 的新时代。其超稀疏 MoE 架构、弹性训练范式与统一多模态强化学习体系,不仅解决了传统多模态模型的融合不畅、部署困难等痛点,更提供了一套 “大规模统一多模态模型” 的完整技术方案。
作为公开披露的首个生产级万亿参数统一自回归多模态模型,ERNIE 5.0 为行业树立了新的标杆。未来,随着技术的进一步迭代,有望在智能交互、内容创作、工业质检等更多场景落地,推动多模态 AI 从实验室走向规模化应用。
如需深入了解技术细节,可查阅完整技术报告:https://arxiv.org/abs/2602.04705




