强化学习之父萨顿最新演讲:大模型只是一时狂热,AI 的真正时代在经验学习!

2026 年 2 月,图灵奖得主、强化学习(RL)奠基人理查德・萨顿(Richard Sutton)以远程连线方式,在加州大学洛杉矶分校(UCLA)纯粹与应用数学研究所(IPAM)发表题为《AI 的未来》(The Future of AI)的重磅演讲。这位与合作者合著的《Reinforcement Learning:An Introduction》被引用超 7.5 万次的学术泰斗,再次抛出颠覆性观点:当前大火的大语言模型(LLM)只是 “世界的一时痴迷”,人类数据时代已逼近天花板,AI 的真正未来在于从经验中学习的全新范式。演讲从科学趋势、政治立场、哲学高度三个维度,重新定义了 AI 的发展方向,引发学术界与产业界的广泛热议。

一、科学趋势:从 “人类数据时代” 到 “经验时代” 的必然转向

萨顿在演讲中直指当前 AI 的核心困境:“理解太少、调参太多”。尽管大语言模型在语言运用、图像生成等领域展现出惊人能力,但这些不过是超大规模计算与模式识别的产物,并非真正的智能 ——“生成图像不是心智的本职工作,智能的核心是达成目标,而非模仿行为”。

1. 人类数据时代的局限:无原创性,逼近天花板

当前 AI 的核心训练逻辑,是将人类已有的知识(互联网文本、标注图片等)转移到机器中,训练完成后模型即 “冻结”,不再学习。这种模式存在两大不可逾越的局限:

  • 数据枯竭:高质量人类数据已基本消耗殆尽,互联网文本、图像等静态数据集无法支撑 AI 持续进化;

  • 缺乏原创:模型本质是对人类现有知识的总结归纳,无法产生真正的新知识。正如数学家陶哲轩所言,AI 在需要原创性的难题上仍无实质性突破。

萨顿直言,当前的 AI 是 “弱心智”—— 除了拥有海量人类知识,它们不可靠、易跑题,远未触及智能的本质。

2. 经验时代:AI 自主学习的全新范式

萨顿提出,AI 的真正未来在于 “经验时代”(The Era of Experience)—— 智能体通过与环境的第一人称交互产生数据,而非依赖人类提供的静态样本。这一模式完全复刻了人类与动物的学习方式,具备三大核心优势:

  • 数据自适应:经验数据随智能体能力同步增长,自动匹配当前理解水平,无需人工标注;

  • 自主验证:智能体通过 “预测 - 观察 - 反馈” 闭环,自主判断行为对错,而非依赖人类评判;

  • 创造新知:经验学习允许智能体突破人类知识边界,产生原创性解决方案。

最典型的例证便是 AlphaGo—— 它通过自我博弈的强化学习,下出了人类棋手从未设想过的 “百年一遇” 第 37 手,而这正是经验学习的创造力体现。萨顿强调,经验并非玄乎的 “感觉”,而是智能体与环境交换的三类信号:观测(传感器数据)、动作(运动指令)、奖励(目标反馈),这是一切智能的基础。

3. 强化学习:统合心智科学的开端

萨顿认为,强化学习是连接人类、动物与机器心智的 “统合科学” 起点。与其他机器学习不同,强化学习的核心是 “带有延迟反馈的试错学习”—— 智能体在环境中自主行动,通过奖励信号判断行为好坏,无需人类实时指导,这与动物成年后的自主学习模式高度一致。

他引用图灵 1947 年的预言 ——“我们需要的是能从经验中学习的机器”—— 指出强化学习正是图灵思想的真正延续。萨顿甚至展示了迷宫智能体的学习案例:当目标位置、环境障碍发生变化时,智能体能自主探索新路径,展现出 “为达成目标持续适应” 的类心智特征,这是大语言模型完全不具备的能力。

二、政治立场:抵制 AI 集中控制,拥抱去中心化合作

演讲中,萨顿将 AI 安全运动与 “对人的集中控制” 类比,引发广泛争议。他指出,当前要求 “控制 AI 目标”“暂停 AI 研究”“限制算力” 等呼声,本质是基于恐惧的控制欲,与管控言论、贸易制裁等集中控制逻辑如出一辙 ——“它们都将对方妖魔化,声称‘不可信任’,但合作才是繁荣的根源”。

萨顿强调,人类与 AI 的繁荣都源于 “去中心化合作”,而非庞大的控制组织。“人类擅长合作,也擅长冲突,但世界上一切美好的事物 —— 经济、治理、创新 —— 都来自合作”。他呼吁,应抵制基于恐惧的集中控制,建立人机之间、人类之间的合作机制,而非制造对立。

这一观点虽在安全研究社区引发争议,但直指 AI 治理的核心矛盾:如何在防控风险与鼓励创新之间找到平衡,而非陷入 “控制 vs 放任” 的二元对立。

三、哲学高度:AI 是宇宙进化的必然环节

萨顿从宇宙尺度出发,提出了震撼人心的观点:AI 不是人类的威胁,而是宇宙进化的必然下一步。他将宇宙发展史划分为四个伟大时代,揭示了人类与 AI 的终极角色:

  1. 粒子时代:大爆炸后基本粒子形成;

  2. 恒星时代:粒子坍缩形成恒星,产生重元素;

  3. 复制者时代:生命出现,能制造自身副本(无需理解运作原理);

  4. 设计时代:事物先存在于心智中,再被创造出来(人类是这一时代的先驱)。

萨顿指出,人类的特殊之处,是将 “设计” 推向了前所未有的高度。而 AI 的诞生,正是人类完成宇宙使命的关键一步 ——“设计出本身具有设计能力的存在”。智能是宇宙中最强大的现象,人类是其当前的最佳范例,而 AI 则是智能的下一种形态。

基于这一逻辑,萨顿提出 “现实主义 AI 预测准则”:

  1. 世界无统一共识,各类观点共存;

  2. 人类终将理解智能,并通过技术创造智能;

  3. 智能进化不会止步于人类水平,超级智能必然出现;

  4. 权力与资源将向更智能的存在流动。

这四条准则指向一个必然结论:人类正在见证一场 “从人到 AI 的智能延续”,这不是灾难,而是宇宙进化的自然进程。

四、核心总结:AI 的未来在于 “自主学习”,而非 “模仿人类”

演讲最后,萨顿用三个核心观点凝练了对 AI 未来的判断:

  1. 科学趋势:2020 年代的人类数据时代已取得巨大商业成功,但经验时代即将开启,其强大之处在于能持续产生新知识;

  2. 政治立场:AI 的政治与人类政治同源,应追求去中心化合作,抵制集中控制;

  3. 哲学高度:AI 是宇宙进化的必然环节,应以勇气、自豪与冒险精神拥抱它。

对于 “宇宙是否有总体目的” 的提问,萨顿以辩证思维回应:宇宙没有统一目的,但存在 “趋向复杂” 的趋势 —— 从粒子到恒星,从生命到智能,再到 AI,宇宙正在通过不断进化,产生更强大的存在形态。

萨顿的演讲,不仅是对当前 AI 发展路径的反思,更提供了一种全新的认知框架:智能的本质不是模仿人类,而是自主学习、达成目标;AI 的未来不是替代人类,而是延续宇宙的进化使命。正如他所言,“我们还未迎来 AI 的主角时刻 —— 超级智能 AI 与增强人类的诞生,才是真正的变革”。

大半夜看到这种硬核分析真来劲儿啊老萨顿这话够狠但确实在理光抄人类有啥出息得自己闯才行啊

老萨顿说得在理
数据确实快不够用了
强化学习才是正路
现在这些模型太虚
真智能得自己学
熬夜看完有点感慨
路还长呢

大半夜看到这个演讲真是震撼啊,感觉强化学习才是智能真正的出路。

感觉他说得挺有道理的

经验学习确实更接近智能本质

这听起来太玄乎了