继 DeepSeek 之后,中国大模型团队再获国际顶级学术认可!北京时间 2026 年 1 月 29 日,北京智源人工智能研究院的多模态大模型 “悟界・Emu3” 登上 Nature 正刊,成为中国首篇聚焦多模态大模型路线的 Nature 论文。这款仅靠 “预测下一个 token” 就实现文本、图像、视频统一学习的模型,不仅在生成与感知任务上比肩专用模型,更确立了自回归架构作为生成式 AI 统一路线的核心地位,为世界模型、具身智能的发展铺平了道路。
从 2024 年立项时的技术豪赌,到 2026 年 Nature 加冕,Emu3 的崛起不仅是中国 AI 原始创新的胜利,更预示着多模态大模型从 “专用化” 向 “统一化” 的时代转折。深求社区带你拆解其技术内核、性能突破与产业影响,看懂这场 AI 架构革命的核心逻辑。
一、技术豪赌:50 人团队死磕 “统一多模态”
2024 年,当整个行业沉浸在 GPT-4 复现热潮,多模态领域被扩散模型(图像生成)与组合式方法(视觉语言理解)二分天下时,智源研究院做出了一个冒险的决定:组建 50 人技术团队,押注 “预测下一个 token” 的自回归路线,打造原生统一的多模态大模型。

这个决定背后,是智源团队的三重信念:
-
多模态是 AGI 必经之路:下一代 AI 要进入物理世界,必须 “见过世界”,仅靠文字无法构建完整认知;
-
现有技术存在天花板:扩散模型与组合式方法难以收敛,无法实现生成与感知的深度融合;
-
极简架构的强大潜力:自回归路线的 “预测下一个 token” 逻辑,具备跨模态统一的天然优势,可大幅降低研发门槛与成本。
研发之路充满挑战:
-
技术攻坚:离散 token 化视觉信息时,需平衡压缩效率与信息保留,团队在图像 token 压缩中多次受挫;
-
路径质疑:同期多家头部团队因资源消耗大、主线聚焦语言模型,纷纷砍掉多模态项目;
-
认知未知:当时 “多模态能否提升模型智能” 尚无定论,团队需在未知中摸索前行。
最终,Emu3 开创性地将图像、文本、视频统一离散化到同一表示空间,通过单一 Transformer 模型端到端训练,实现了 “一个架构搞定所有多模态任务” 的突破。
二、核心突破:仅靠 “预测下一个 token”,比肩专用模型
Emu3 的革命性,在于用最简洁的自回归逻辑,实现了此前需复杂架构才能达成的性能。Nature 编辑评价其 “为构建可扩展、统一的多模态智能系统提供了重要范式”。
1. 跨模态性能全面领先
在核心基准测试中,Emu3 的表现媲美甚至超越专用模型:
-
图像生成:MSCOCO-30K 基准得分 70.0,超越 SD-1.5(59.3)、SDXL(66.9),接近 DALL-E 3、FLUX.1(Dev)等顶尖模型;
-
视频生成:VBench 评分 81.0,超过 Open-Sora 1.2(79.8),动态连贯性与场景稳定性表现突出;
-
视觉语言理解:得分 62.1,略高于 LLaVA-1.6(61.8),且无需依赖 CLIP 预训练或专用语言模型;
-
零样本能力:无需任务微调,即可完成图像修复、图文交错生成、机器人操作建模等复杂任务,语义对齐精度高。
2. 五大核心组件构建统一架构
Emu3 的成功源于其高度集成的技术框架,五个核心组件形成闭环:
-
混合多模态数据集:涵盖文本、图像、视频、动作等多元数据,为跨模态学习提供基础;
-
统一标记器:将图像、视频片段转换为紧凑离散 token 流,实现多模态信息在同一空间表示;
-
仅解码器 Transformer 架构:复用成熟大语言模型框架,扩展嵌入层容纳视觉 token,结构极简且高效;
-
两阶段优化:先通过平衡交叉熵损失进行大规模预训练,再通过后训练对齐任务格式与人类偏好;
-
高效推理后端:支持无分类器引导(CFG),兼顾低延迟与高吞吐量,适配多场景部署。
3. 从 “预测 token” 到 “预测状态” 的进化
2025 年 10 月发布的 Emu3.5,更实现了范式升级:
-
长时序视频理解:可处理空间一致的长序列,模拟虚拟世界探索与操作;
-
物理世界建模:自发学习世界演变内在规律,超越谷歌 Nano Banana 等模型拿下多模态 SOTA;
-
多模态 Scaling 范式:验证了模型与数据规模增长时,物理世界建模能力的涌现趋势,为具身智能提供关键路径。
三、产业影响:多模态大模型的 “降本增效” 革命
Emu3 及后续版本的发布,不仅改写了多模态技术格局,更给产业带来实实在在的价值:
1. 降低研发门槛,推动技术普惠
“越是极简的架构,对产业的价值越大”,智源研究院院长王仲远的观点得到验证:
-
架构简化:无需同时维护生成与感知两套系统,减少研发复杂性与潜在错误;
-
复用基础设施:可直接复用大语言模型的训练与推理栈,大幅降低算力与人力成本;
-
开源赋能:模型权重、训练代码、数据集全面开源(GitHub 地址:https://github.com/baaivision/Emu3),全球下载量超 7.6 亿次,让中小企业也能用上顶尖多模态能力。
2. 拓展应用边界,赋能多元场景
Emu3 的统一架构使其具备极强的场景适配性:
-
内容创作:支持图文交错生成(如菜谱、教程)、高保真视频生成与扩展,革新内容生产流程;
-
机器人操作:可建模视觉 - 语言 - 动作关联,为工业机器人、服务机器人提供决策基础;
-
智能助手:原生支持多模态交互,可理解图像指令、生成视频回复,打造下一代智能终端体验;
-
零样本迁移:无需微调即可适配图像修复、公式识别等任务,加速行业落地。
3. 引发技术路线之争,推动行业进化
Emu3 的成功引发了 “扩散模型已死” 的讨论,但智源团队理性指出:这并非路线替代,而是多元并存。扩散模型在美学生成等场景仍有优势,而自回归路线为统一多模态提供了更高效的选择。
这种竞争推动了整个行业的进化:越来越多团队开始探索统一架构,技术焦点从 “单一模态优化” 转向 “跨模态协同”,加速了多模态智能的成熟。
四、生态背后:北京 “开源之都” 的原始创新力量
Emu3 的崛起,离不开北京浓厚的 AI 创新生态:
-
机构支撑:智源研究院作为产学两栖机构,既拥有高校的学术深度,又具备企业化的工程能力,可长期投入前瞻性研究;
-
人才储备:作为 “大模型的黄埔军校”,智源为行业输送了大量顶尖人才,形成良性人才循环;
-
政策赋能:《北京市加快建设具有全球影响力的人工智能创新策源地实施方案》等政策,从场景、资金、要素保障等维度提供支持;
-
开源生态:北京正打造中国版 “Hugging Face”,智源、智谱、百度等企业纷纷开源核心模型,形成协同创新的产业集群。
自 2022 年启动研发以来,Emu 系列持续迭代:从 2023 年首个打通多模态输入输出,到 2024 年 Emu3 确立统一路线,再到 2025 年 Emu3.5 开启世界模型时代,智源用四年时间完成了从跟随到引领的跨越。
五、未来展望:世界模型与具身智能的新起点
Nature 论文的发表,只是 Emu 系列的一个里程碑。智源研究院已明确下一步方向:持续投入世界模型、具身智能及生命科学智能研究,构建 AI 在物理世界中的基础模型。
对于开发者而言,这意味着更多机遇:
-
技术选型:可基于 Emu 开源生态,快速搭建多模态应用,无需从零构建架构;
-
场景创新:利用 “预测状态” 的能力,探索机器人、自动驾驶、虚拟世界等前沿场景;
-
硬件适配:Emu 系列可通过 FlagOS 开源系统栈适配多元 AI 硬件,为国产芯片落地提供支撑。
正如前 OpenAI 政策主管杰克・克拉克评价:“Emu3 的‘简单’具备强大的扩展潜力”。这场始于技术豪赌的革命,正在让 AI 从 “理解数字世界” 走向 “认知物理世界”,而中国团队正站在这场革命的最前沿。


