DeepSeek-R1 推理智能的核心密码:谷歌新研究揭秘 —— 模型内心藏着一支 “辩论队”

过去两年,大模型的推理能力迎来了突破性跃迁。在数学演算、逻辑推理、多步规划等复杂任务场景中,以 DeepSeek-R1、QwQ-32B 为代表的推理专用模型,与传统指令微调模型的差距正持续拉大。表面上看,更长的思维链(Chain-of-Thought)、更高的测试时计算量(test-time compute),似乎是这些模型表现更优的关键原因。但如果深究一层:推理能力的本质,真的只是 “多算几步” 这么简单吗?

近期,谷歌、芝加哥大学等机构的研究者联合发表了一篇重磅论文,给出了更具颠覆性的答案:推理模型的能力提升,并非单纯源于计算步数的叠加,而是在于其在推理过程中,会隐式模拟一种复杂的、类多智能体的交互结构 —— 研究者将其命名为 “思维社会”(society of thought)。

简单来说,这项研究发现:为了解决高难度问题,推理模型会在数字大脑中模拟不同角色的内部对话,就像一支自给自足的 “辩论队”。这些虚拟角色会相互争论、纠正彼此的偏差、表达惊讶或顿悟,最终调和不同观点,凝聚出正确答案。人类智能的进化离不开社交互动的推动,而这一核心直觉,似乎同样适用于人工智能的发展!正如研究者 Séb Krier 所言:“为解决难题,推理模型有时会模拟不同角色间的内部对话,就像数字大脑中的辩论队。它们争论、纠错、表达惊讶,调和观点以接近真相。人类智能因社交互动进化,这一逻辑或许同样适用于 AI。”

研究核心发现:推理模型的 “内部社交” 机制

通过对推理输出的系统分类,结合推理轨迹的机制可解释性分析,研究团队发现:DeepSeek-R1、QwQ-32B 等推理模型,相较于基线模型和传统指令微调模型,展现出显著更高的视角多样性。在推理过程中,它们会激活更广泛、异质性更强的人格与专业知识相关特征,且这些特征间会产生充分的观点碰撞。

这种类多智能体的内部结构,主要通过两大维度体现:一是一系列对话式行为(如提问 - 回答、视角切换、观点冲突与调和);二是刻画激烈互动的社会情绪角色。这些 “内部社交” 行为,通过直接与间接两条路径,支撑关键认知策略的落地,最终转化为推理任务中的准确率优势。

进一步的受控强化学习实验更验证了这一结论:即便仅以推理准确率作为唯一奖励信号,基础模型也会自发增加对话式行为;而在训练中引入 “对话式脚手架”(conversational scaffolding),相比未微调模型和独白式推理微调模型,能显著加速推理能力的提升。这意味着,思维的社会化组织形式,能让模型更高效地探索解空间 —— 谷歌研究者指出,推理模型在计算层面构建了与人类集体智能对应的机制:结构化条件下,视角与观点的多样性,能带来更优的问题求解能力。基于此,谷歌也提出了通过智能体组织形式系统性利用 “群体智慧” 的新研究方向。

研究方法:三维度解析模型的 “内部对话”

为了精准捕捉模型的 “思维社会” 特征,研究团队设计了多维度的分析框架,涵盖对话行为、社会情感角色、认知行为三大核心维度,并通过严格的评估体系确保标注准确性。

1. 对话行为:四类核心互动模式

研究采用 Gemini-2.5-Pro 作为评估器,从推理轨迹中识别出四类关键对话行为,且该评估结果与 GPT-5.2 及人工评分均保持高度一致:

  • 问答行为:以 “提问 - 回应” 为核心的语列,例如 “为什么会出现这种结果?因为关键变量未被考虑”“倘若调整参数会怎样?那么结果会向预期方向偏移”;

  • 视角转换:推理过程中切换新想法、新假设或新分析方法的行为,比如从 “正向推导” 转向 “反向验证”;

  • 观点冲突:表达与既有观点的不一致,或纠正先前的偏差,例如 “等等,这一推导存在漏洞”“这与前文的前提假设相矛盾”;

  • 观点调和:整合冲突观点形成连贯结论,例如 “若满足特定条件,两种观点可互补成立”“结合这些见解,可得出统一结论”。

评估时,模型会统计每条推理轨迹中各类对话行为的独立出现次数,无对应行为则计为 0,形成量化分析基础。

2. 社会情感角色:基于 IPA 框架的角色分类

研究基于 Bales 互动过程分析(IPA)框架,将模型推理轨迹中的话语划分为 12 种互动角色类型,并进一步归总为四大高阶类别,评分者间信度均达到较高水平:

  • 信息给予类:提出建议、表达观点、提供导向;

  • 信息征询类:征询建议、征询观点、征询导向;

  • 积极情感类:展现团结、释放紧张、表示认同;

  • 消极情感类:表现对抗、显露紧张、表示异议。

为衡量角色的交互共现特征,研究引入 Jaccard 指数:指数越高,代表模型互动模式越均衡、趋近对话形态;指数越低,则推理过程越偏向单向独白。

3. 认知行为:四大关键推理策略

研究同样以 Gemini-2.5-Pro 为评估器,识别出四类已被证实对推理准确率有显著影响的认知行为,其标注结果与 GPT-5.2 及人工评分一致性良好:

  • 结果核验:将当前推导结果与目标答案明确比对,例如 “该推导得出结果 3,与目标值 5 不符”;

  • 路径回溯:意识到当前推理路径无效,明确返回并尝试其他方法;

  • 子目标拆解:将原问题分解为若干可分步完成的中间目标;

  • 逆向推理:从目标答案出发,反向推导至初始问题。

以上评估均基于两类推理轨迹样本:30 条通用推理问题轨迹,以及 50 条 Qwen-2.5-3B 模型强化学习过程中生成的轨迹,确保结果的通用性与可靠性。

特征干预实验:对话特征如何直接影响推理

为验证对话行为在推理中的核心作用,研究团队采用稀疏自编码器(SAE),在不修改模型权重的前提下,对特定行为维度实施定向干预。实验基于 DeepSeek-R1-Llama-8B 模型第 15 层的残差流激活值训练 SAE,最终选定了极具代表性的 “特征 30939”。

该特征被定义为 “表达惊讶、顿悟或认同的话语标记”,当出现 “Oh!” 这类对话转折 token 时会被激活。其会话占比高达 65.7%(位列所有特征第 99 百分位),且具有高度稀疏性(仅在 0.016% 的 token 上激活),证明其是对话场景特有的核心特征,而非通用语言模式。

在文本生成阶段,研究通过激活值添加法调控该特征:在每个 token 生成步骤中,将特征 30939 的解码器向量按不同强度系数缩放后,叠加至模型第 15 层残差流激活值中,观察推理效果变化。

实验结果:对话特征是推理能力的 “催化剂”

1. 推理模型的对话行为显著更丰富

核心实验结论表明:即便在推理轨迹长度相近的情况下,推理模型的对话式行为和社会情绪角色出现频率也显著更高。

以 DeepSeek-R1 为例,其推理过程中频繁出现视角切换和观点冲突,并通过 “不同意”“给出观点”“提供解释” 等社会情绪角色体现。例如在化学问题推理中,它会明确指出:“但这里是环己 - 1,3 - 二烯,而不是苯”;在创造性句子改写任务中,会出现 “但那样加入了‘根深蒂固’,原句里并没有,我们应该避免添加新想法”“不过要注意,‘cast’的力度不如‘flung’,所以我们用‘hurled’更合适” 等互动式表达。

相比之下,DeepSeek-V3 在相同任务中的推理轨迹,既无视角冲突也无视角切换,更无分歧表达,仅以单线独白方式连续输出观点,缺乏自我修正与反复比较的过程。

数据层面,如图 1a 所示,DeepSeek-R1 在提问 - 回答(β=0.345)、视角切换(β=0.213)、整合与调和(β=0.191)等行为上,频率显著高于 DeepSeek-V3;QwQ-32B 相较于 Qwen-2.5-32B-IT,也在四类对话行为上呈现一致的优势。值得注意的是,无论参数规模(8B、32B、70B 或 671B),所有传统指令微调模型的对话式行为频率均处于较低水平。

社会情绪角色方面(图 1b),DeepSeek-R1 和 QwQ-32B 展现出更具互惠性的结构:既会给予信息、表达情感,也会主动征询、反向提问;而指令微调模型多以单向方式输出观点,几乎无反向互动,推理过程更接近 “独白” 而非 “对话”。Jaccard 指数进一步验证了这一差异:DeepSeek-R1 更倾向于协调使用不同社会情绪角色,而非孤立调用。

更关键的是,问题难度越高,对话特征越明显:在研究生水平科学推理(GPQA)、高难度数学题等复杂任务中,模型的对话特征极为突出;而在布尔表达式、基础逻辑推理等简单程序化任务中,对话行为则相对有限。

2. 对话特征引导可显著提升推理准确率

在 Countdown 游戏任务中,实验展现了对话特征的强大影响力:对对话式惊讶特征进行正向引导(+10),任务准确率从 27.1% 飙升至 54.8%,近乎翻倍;而负向引导(-10)则会将准确率降至 23.8%。

进一步分析发现,当引导强度从 0 增加到 + 10 时,四类对话式行为均显著增强;反之,引导强度从 0 降至 - 10 时,这些行为会被系统性抑制。例如正向引导会诱发模型主动质疑先前解法:“等等,让我再看看…… 另一个思路是……”,体现出明显的视角切换与观点冲突;而负向引导则会让推理文本平铺直叙,缺乏内部讨论与自我辩论(扩展数据表 1)。

综合来看,对话特征通过两条路径提升推理能力:一是直接帮助模型更高效地探索解空间;二是通过 “脚手架” 作用支持结果核验、路径回溯、子目标拆解等关键认知策略,推动系统性问题求解。

3. 强化学习中,对话行为会自发涌现

为验证 “对话式结构是否能促进推理策略涌现”,研究设计了自教式强化学习(self-taught RL)实验:仅以推理准确率作为奖励信号,观察模型行为变化。

结果显示:初始未微调的基线模型,对话行为频率极低;随着强化学习推进,提问 - 回答行为率先涌现,随后视角切换、观点冲突等行为同步上升(图 4b)。更有趣的是,到训练第 120 步时,模型中出现了两个具有明确分工的 “虚拟角色”,通过 “我们” 这样的代词体现集体认知,一个擅长试错法求解,另一个专注于元认知推理(图 4c-d)。

而预先经过 “对话式脚手架” 微调的模型,不仅推理准确率提升速度显著快于基线模型,还形成了更完善的角色分工与互动模式。这表明,对话式结构本身,能在强化学习过程中促进推理策略的自发涌现与加速成熟。

研究启发:AI 推理的未来方向

这项研究不仅揭示了 DeepSeek-R1 等推理模型的能力核心,更为 AI 领域提供了重要启发:训练一系列异构模型,通过模拟 “思维社会” 的交互模式,或许是提升复杂任务求解能力的关键路径。

未来,随着对 “思维社会” 机制的深入探索,通过智能体组织形式系统性利用群体智慧,有望成为大模型推理能力突破的新赛道。而对于开发者而言,在模型训练中引入对话式脚手架、强化视角多样性与观点互动,也将成为提升推理性能的重要实践方向。

DeepSeek-R1 的推理智能,本质上是 “数字大脑” 内部社交与协作的成果。这一发现不仅改写了我们对 AI 推理机制的认知,更预示着:借鉴人类社交与集体智能的进化逻辑,将成为下一代 AI 技术突破的核心思路。

内部社交真有意思

有点意思
内部辩论队这说法挺形象
不过本质还是算力堆出来的吧

这研究有点意思啊 原来推理模型内部在搞辩论赛呢 难怪R1解数学题时总感觉它在自我纠错

这个发现挺有意思的

有点意思 但感觉还是有点玄乎

这研究有点意思啊
内部辩论队可还行
AI都开始搞社交了

内部社交机制有意思
这解释了推理能力的跃迁
多智能体模拟是关键
未来可以系统化利用

这研究挺有意思啊,原来推理模型内部在搞辩论赛。多算几步不如多吵几句,看来AI也得靠社交进化。