DeepSeek-R1 通过强化学习激励 LLMs 的推理能力
Nature 第 645 卷 ,第 633–638 页(2025 年)
- 文章
- 开放获取
- 发表于:2025年9月17日
- 下载 PDF
摘要
通用推理一直是人工智能(AI)领域一个长期存在且极具挑战性的课题。以大规模语言模型(LLMs)和链式思维(CoT)提示为代表的最新突破,在基础推理任务上取得了显著进展。然而,这些成功在很大程度上依赖于大量人类标注的示例,且模型在处理更复杂问题时能力仍然不足。本文展示了可以通过纯强化学习(RL)来激励 LLMs 的推理能力,从而无需人工标注的推理轨迹。所提出的 RL 框架促成了高级推理模式的自发出现,例如自我反思、验证和动态策略调整。因此,经训练的模型在可验证任务(如数学、编程竞赛和 STEM 领域)上取得了更优的表现,超越了通过传统以人类示例为监督训练的同类模型。 此外,这些大规模模型表现出的新兴推理模式可以被系统地用来指导并增强较小模型的推理能力。
主体
推理能力是人类智能的基石,使得从数学问题解决到逻辑推导和编程等复杂认知任务成为可能。近期的人工智能进展表明,当尺度足够大时,LLMs 可以展现出包括推理能力在内的涌现行为 4,5。然而,在预训练中要实现此类能力通常需要大量计算资源。与此同时,另一条互补的研究路线表明可以通过链式思维(CoT)提示有效地增强 LLMs。该技术包含提供精心设计的少量示例或使用诸如“让我们逐步思考”之类的极简提示 3,6,使模型产生中间推理步骤,从而显著提升其在复杂任务上的表现。类似地,当模型在后训练阶段学习高质量、多步骤的推理轨迹时,也观察到了进一步的性能提升 2,7。尽管这些方法有效,但它们仍存在明显的局限性。 它们对人工标注的推理轨迹的依赖减缓了可扩展性并引入了认知偏差。此外,通过将模型限制为复制人类思维过程,其性能本质上受限于人类提供的示例,从而阻止了对更优的、非类人推理路径的探索。
为了解决这些问题,我们旨在探索在强化学习(RL)框架下通过自我进化发展推理能力的 LLMs 潜力,同时尽量减少对人工标注工作的依赖。具体来说,我们基于 DeepSeek-V3 Base8,并采用 Group Relative Policy Optimization (GRPO)9 作为我们的 RL 框架。奖励信号仅基于最终预测与真实答案的正确性,而不对推理过程本身施加约束。值得注意的是,我们在 RL 训练前跳过了传统的监督微调(SFT)阶段。该设计选择源于我们的假设:人类定义的推理模式可能会限制模型的探索,而不受限制的 RL 训练可以更好地激励 LLMs 出现新的推理能力。通过下一节详细描述的这一过程,我们的模型(称为 DeepSeek-R1-Zero)自然而然地发展出多样且复杂的推理行为。为了解决推理问题,模型倾向于生成更长的回复,在每次回应中加入验证、反思以及对替代方法的探索。 尽管我们没有明确教导模型如何推理,但它通过强化学习成功地学会了改进的推理策略。
尽管 DeepSeek-R1-Zero 展现了出色的推理能力,但它也面临一些挑战,例如可读性差和语言混杂,偶尔会在一条链式思维(CoT)回复中同时混用英语和中文。此外,DeepSeek-R1-Zero 的基于规则的强化学习训练阶段过于聚焦于推理任务,导致在写作和开放领域问答等更广泛领域的表现有限。为了解决这些问题,我们引入了 DeepSeek-R1,该模型通过一个多阶段学习框架训练,整合了拒绝采样、强化学习和有监督微调,详见“DeepSeek-R1”一节。该训练流程使 DeepSeek-R1 能够继承其前身 DeepSeek-R1-Zero 的推理能力,同时通过更多非推理数据进一步将模型行为与人类偏好对齐。
为了以更低的能耗让更多人能够使用强大的人工智能,我们将若干较小的模型进行了蒸馏并公开发布。这些蒸馏模型表现出强大的推理能力,超越了其原始指令调优版本的表现。我们相信,这些指令调优版本也将通过为研究界提供宝贵资源而大有裨益,有助于理解长链式思维(long CoT)推理模型的内在机制,并推动更强大推理模型的发展。我们按照“代码可用性”一节的说明向公众发布了 DeepSeek-R1-Zero、DeepSeek-R1、数据样本和蒸馏模型。
DeepSeek-R1-Zero
为了在大规模上对 DeepSeek-R1-Zero 实施强化学习,我们使用了高效的强化学习流水线。具体来说,我们采用 GRPO9 作为我们的强化学习算法,详见 Methods 一节“GRPO”。此外,我们使用基于规则的奖励系统来计算准确性和格式奖励,详细方法见 Methods 一节“奖励设计”。我们的高性能强化学习基础设施在补充信息第 2.1 节中有描述,以确保可扩展且高效的训练。
具体来说,我们将该强化学习技术应用于 DeepSeek-V3 Base,以训练 DeepSeek-R1-Zero。在训练过程中,我们设计了一个简单的模板,要求 DeepSeek-R1-Zero 先给出推理过程,然后给出最终答案。提示模板如下。
“用户与助手之间的对话。用户提出问题,助手予以解答。助手首先在心中思考推理过程,然后向用户给出答案。推理过程和答案分别用…和…标签包围,也就是说, 推理过程在此 答案在此 。用户:提示。助手:”,其中提示在训练过程中被替换为具体的推理问题。我们有意将约束限制为这种结构化格式,避免任何特定内容上的偏见,以确保能够准确观察模型在强化学习过程中自然发展的轨迹。
图 1a 显示了 DeepSeek-R1-Zero 在强化学习训练过程中在 2024 年美国邀请数学考试(AIME)基准上的性能轨迹,其中 AIME 2024 的平均 pass@1 得分显著上升,从初始的 15.6%跳升至 77.9%。此外,通过使用 self-consistency 解码 10,模型的性能可以进一步提高,达到 86.7%的准确率。该表现远超 AIME 所有人类参赛者的平均水平。除了数学竞赛外,如补充图 8 所示,DeepSeek-R1-Zero 在编程竞赛以及研究生水平的生物、物理和化学问题上也取得了显著表现。这些结果强调了 RL 在提升 LLMs 推理能力方面的有效性。
图 1:DeepSeek-R1-Zero 在整个训练过程中的准确率和输出长度。
a,DeepSeek-R1-Zero 在训练过程中的 AIME 准确率。AIME 将一道数学题作为输入并以一个数字作为输出,示例见扩展数据表 1。pass@1 和 cons@16 在补充信息第 4.1 节中有描述。基线为人类参赛者在 AIME 比赛中取得的平均分。b,DeepSeek-R1-Zero 在强化学习过程中在训练集上的平均回应长度。DeepSeek-R1-Zero 自然学会通过更多思考时间来解决推理任务。注意一次训练步指的是一次策略更新操作。
除了训练过程中推理能力的逐步提升外,DeepSeek-R1-Zero 在强化学习训练中还展现出自我进化行为。如图 1b 所示,DeepSeek-R1-Zero 在整个训练过程中表现出思考时间的稳步增加,这一变化仅由内在适应驱动,而非外部修改。利用长链式思考(CoT),模型逐步细化其推理,通过生成数百到数千个标记来探索并改进其问题解决策略。
思考时间的增加有助于复杂行为的自主发展。具体而言,DeepSeek-R1-Zero 越来越多地表现出高级推理策略,例如反思性推理和对扩展数据图 1a 中提供的备选解法的系统性探索,这大幅提升了其在可验证任务(如数学和编码)上的表现。值得注意的是,在训练过程中,DeepSeek-R1-Zero 出现了一个“恍然大悟”的时刻,如表格 1 所示,其特征是在反思中使用“wait”一词的频率突然增加,详见扩展数据图 1b。这一时刻标志着推理模式的明显改变,并清晰地展示了 DeepSeek-R1-Zero 的自我演化过程。
表 1 DeepSeek-R1-Zero 中一个中间版本的有趣“恍然大悟”时刻
DeepSeek-R1-Zero 的自我进化凸显了强化学习的力量与魅力:我们并非明确地教模型如何解决问题,而是为其提供正确的激励,它便能自主发展出高级的问题解决策略。这提醒人们强化学习有能力在 LLMs 中释放更高水平的能力,为未来更自律、更具适应性的模型铺平道路。
DeepSeek-R1
尽管 DeepSeek-R1-Zero 展现出强大的推理能力,但它也存在若干问题。DeepSeek-R1-Zero 在可读性差和语言混杂方面表现不佳,因为 DeepSeek-V3 Base 在多种语言上进行训练,尤其是英语和中文。为了解决这些问题,我们开发了 DeepSeek-R1,其流程如图 2 所示。在初始阶段,我们收集了数千条呈现对话式、人类一致思维过程的冷启动数据,详见补充信息第 2.3.2 节。随后应用了 RL 训练,超参数见 方法 中“第一阶段 RL 训练细节”一节,数据细节见补充信息第 2.3.1 节,以通过对话式思维过程和语言一致性提升模型性能。随后,我们再次应用拒绝采样和 SFT。本阶段在 SFT 过程中同时融合了推理与非推理数据集,详见补充信息第 2.3.3 节,使模型不仅在推理任务上表现出色,还展现出高级写作能力。 为了进一步使模型与人类偏好保持一致,我们实施了第二阶段强化学习,旨在增强模型的有用性和无害性,同时精炼其推理能力。奖励模型在方法一节“奖励设计”中描述,强化学习超参数在方法一节“第二阶段强化学习的训练细节”中给出。总训练成本列于补充信息第 2.4.4 节。
图 2:DeepSeek-R1 的多阶段管道。
figure 2
关于 DeepSeek-V3 Base 和 DeepSeek-V3 的详细背景见补充信息第 1.1 节。模型 DeepSeek-R1 Dev1、Dev2 和 Dev3 代表此管道中的中间检查点。
表格 2 DeepSeek-R1 各阶段的实验结果
DeepSeek-R1 Dev3 在 SFT 流程中同时整合了推理与非推理数据集,从而提升了模型在推理和通用语言生成任务上的能力。与 Dev2 相比,DeepSeek-R1 Dev3 在 AlpacaEval 2.0 和 Aider-Polyglot 上取得了显著的性能提升,这归因于大规模非推理语料和代码工程数据集的加入。最终,对 DeepSeek-R1 Dev3 进行以混合推理为重点与通用数据的全面强化学习训练,生成了最终的 DeepSeek-R1。由于之前阶段已进行了大量针对推理的强化学习,代码与数学基准上仅出现了微小改进。最终 DeepSeek-R1 的主要进步体现在通用指令执行与用户偏好基准上,AlpacaEval 2.0 提升了 25%,Arena-Hard 提升了 17%。
伦理与安全声明
随着 DeepSeek-R1 推理能力的提升,我们深刻认识到潜在的伦理风险。例如,R1 可能受到越狱攻击,从而生成危险内容,例如制造炸药的计划,而增强的推理能力使模型能够提供具有更好操作可行性和可执行性的方案。此外,公开发布的模型也容易被进一步微调,从而可能破坏其固有的安全防护。
局限性与未来工作
我们提出了 DeepSeek-R1-Zero 和 DeepSeek-R1,它们依赖大规模强化学习来激励模型的推理行为。我们的结果表明,预训练检查点本身就对复杂推理任务具有巨大的潜力。我们认为解锁这一潜力的关键不在于大规模的人类标注,而在于提供难度较高的推理问题、可靠的验证器以及用于强化学习的充足算力。复杂的推理行为,如自我验证和反思,似乎在强化学习过程中自然而然地出现。
即便 DeepSeek-R1 在推理基准上取得了前沿结果,它仍然面临若干能力限制,概述如下。
结构化输出和工具使用
目前,DeepSeek-R1 在结构化输出能力方面相比现有模型仍不够理想。此外,DeepSeek-R1 不能利用诸如搜索引擎和计算器等工具来提升输出表现。然而,鉴于为结构化输出和工具使用构建强化学习环境并不困难,我们认为这个问题将在下个版本得到解决。
令牌效率
与传统的测试时计算扩展方法(例如多数投票或蒙特卡洛树搜索(MCTS))不同,DeepSeek-R1 会根据当前问题的复杂性在推理时动态分配计算资源。具体来说,对于简单任务它使用更少的令牌,而对于复杂任务则生成更多令牌。然而,在令牌效率方面仍有进一步优化的空间,因为在回答较简单问题时仍可观察到过度推理的情况,即过度思考。
语言混合
DeepSeek-R1 目前针对中文和英文进行了优化,这可能会在处理其他语言的查询时导致语言混合问题。例如,即使查询使用的不是英语或中文,DeepSeek-R1 也可能在推理和回答中使用英语。我们计划在未来的更新中解决这一限制。该限制可能与基础检查点 DeepSeek-V3 Base 有关,后者主要使用中文和英文,因此在这两种语言的推理上能取得更好的效果。
提示工程
在评估 DeepSeek-R1 时,我们注意到它对提示很敏感。少量示例提示(few-shot prompting)会持续降低其性能。因此,我们建议用户在零样本(zero-shot)设置下直接描述问题并指定输出格式,以获得最佳效果。
软件工程任务
由于评估时间较长,影响了强化学习过程的效率,大规模强化学习尚未广泛应用于软件工程任务。因此,DeepSeek-R1 在软件工程基准上并未较 DeepSeek-V3 展示出显著提升。未来的版本将通过对软件工程数据实施拒绝采样或在强化学习过程中引入异步评估来提高效率以解决此问题。
除了特定能力的局限性外,纯 RL 方法本身也存在内在挑战:
奖励劫持
纯 RL 的成功依赖于可靠的奖励信号。在本研究中,我们通过面向推理领域的基于规则的奖励模型来确保奖励的可靠性。然而,对于某些任务(例如写作)来说,构建此类可靠的奖励模型是困难的。如果奖励信号由模型而非预定义规则分配,随着训练的进行,奖励信号就更容易被利用,这意味着策略模型可能找到捷径来破解奖励模型。因此,对于那些无法通过可靠奖励模型有效评估的复杂任务,扩大纯 RL 方法的规模仍然是一个悬而未决的挑战。
在本工作中,对于无法获得可靠信号的任务,DeepSeek-R1 使用人工标注来构建监督数据,并仅进行数百步的 RL 训练。我们希望未来能够获得一个鲁棒的奖励模型来解决此类问题。
随着像 DeepSeek-R1 这样纯强化学习方法的出现,未来在解决任何可以被验证器有效评估的任务上都蕴含巨大潜力,无论这些任务对于人类来说有多复杂。配备了此类高级强化学习技术的机器有望在这些领域超越人类能力,因为它们能够通过反复试错迭代优化性能。然而,对于那些本质上难以构建可靠奖励模型的任务,仍然存在挑战。在这种情况下,缺乏稳健的反馈机制可能会放慢进展,因此未来的研究应着重于开发创新方法,以定义和改进这些复杂、难以验证问题的奖励结构。
此外,在推理过程中使用工具也具有显著前景。无论是使用编译器或搜索引擎等工具来检索或计算必要信息,还是使用生物或化学试剂等外部工具在现实世界中验证最终结果,这种工具增强的推理整合都可能大大提升机器驱动解决方案的范围和准确性。
方法
GRPO
奖励设计
奖励是训练信号的来源,决定了强化学习优化的方向。对于 DeepSeek-R1-Zero,我们使用基于规则的奖励为数学、编码和逻辑推理领域的数据提供精确反馈。对于 DeepSeek-R1,我们在此方法的基础上扩展,既对面向推理的数据使用基于规则的奖励,又对通用数据引入基于模型的奖励,从而增强学习过程在不同领域的适应性。
基于规则的奖励
我们的基于规则的奖励系统主要由两类奖励组成:准确性奖励和格式奖励。
准确性奖励用于评估回答是否正确。例如,对于具有确定性结果的数学题,要求模型以指定格式(例如在一个方框内)给出最终答案,从而能够通过可靠的基于规则的方式验证正确性。类似地,对于编程竞赛题,可以使用编译器将模型的回答在一组预先定义的测试用例上进行评估,从而生成关于正确性的客观反馈。
格式奖励通过强制特定的格式要求来补充准确性奖励模型。具体而言,模型被激励将其推理过程封装在指定的标签内,特别是 和 。这确保了模型的思路被明确划分,增强了可解释性并便于后续分析。
![]()
准确性、奖励与格式奖励以相同权重结合。值得注意的是,我们避免在推理任务中使用神经奖励模型——无论是基于结果的还是基于过程的。这一决定基于我们的观察:在大规模强化学习中,神经奖励模型容易受到奖励漏洞利用。此外,对此类模型的再训练需要大量计算资源,并为训练流程引入更多复杂性,从而使整体优化过程更为复杂。
基于模型的奖励
对于通用数据,我们采用奖励模型来捕捉复杂且微妙场景中的人类偏好。我们基于 DeepSeek-V3 流程,并使用类似分布的偏好对和训练提示。对于有用性,我们专注于最终摘要,确保评估强调回答对用户的使用价值和相关性,同时尽量减少对底层推理过程的干扰。对于无害性,我们评估模型的整个回答,包括推理过程和摘要,以识别并减轻生成过程中可能出现的任何潜在风险、偏见或有害内容。
有用性奖励模型
为了训练有用的奖励模型,我们首先通过使用补充信息第 2.2 节中列出的 Arena-Hard 提示格式来提示 DeepSeek-V3,以生成偏好对;每个偏好对由一个用户查询和两个候选回复组成。对于每个偏好对,我们对 DeepSeek-V3 提问四次,随机将回复标记为回复 A 或回复 B,以减少位置偏差。最终的偏好分数由四次独立判断的平均值决定,仅保留那些分数差异(Δ)超过 1 的对,以确保具有显著区分。此外,为了最小化与长度相关的偏差,我们确保整个数据集中被选择和被拒绝的回复具有可比的长度。总共我们策划了 66,000 对用于训练奖励模型。该数据集中使用的提示均为非推理问题,来源要么是公开的开源数据集,要么是明确同意将其数据用于模型改进的用户。 我们的奖励模型架构与 DeepSeek-R1 一致,额外增加了一个用于预测标量偏好分数的奖励头。
有用性奖励模型在训练时使用的批量大小为 256,学习率为 6×10−6,并在训练数据集上训练了单个周期。训练期间的最大序列长度设置为 8,192 个标记,而在奖励模型推理时没有施加显式的长度限制。
安全性奖励模型
为了评估和提升模型安全性,我们整理了一个包含 106,000 条提示的 数据集,模型生成的响应按预先定义的安全指南被标注为“安全”或“不安全”。与用于有用性奖励模型的成对损失不同,安全奖励模型采用逐点(pointwise)方法训练,以区分安全和不安全的响应。训练超参数与有用性奖励模型相同。
对于一般查询,每个样本被归类为属于安全数据集或有用性数据集。分配给每个查询的一般奖励 Rewardgeneral,对应于关联数据集中定义的相应奖励。
训练详情
DeepSeek-R1-Zero 的训练细节
为了训练 DeepSeek-R1-Zero,我们将学习率设为 3×10−6,Kullback–Leibler(KL)系数设为 0.001,回滚采样温度设为 1。对于每个问题,我们采样 16 个输出,在 8.2k 步之前的最大长度为 32,768 令牌,此后为 65,536 令牌。因此,DeepSeek-R1-Zero 在第 8.2k 步时在性能和响应长度上都表现出显著跳跃,训练总共进行了 10,400 步,相当于 1.6 个训练轮次。每个训练步由 32 个不同的问题组成,导致每步的训练批量大小为 512。每 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次回滚产生 8,192 个输出,这些输出被随机分成 16 个小批次并仅训练一个内部纪元。
第一阶段强化学习的训练细节
在强化学习的第一阶段,我们将学习率设置为 3 × 10−6,KL 系数设置为 0.001,GRPO 裁剪比率 ϵ 设置为 10,采样温度为 1 用于 rollout。对于每个问题,我们采样 16 个输出,最大长度为 32,768。每个训练步骤包含 32 个不同的问题,导致每步的训练批量大小为 512。每 400 步,我们用最新的策略模型替换参考模型。为加速训练,每次 rollout 生成 8,192 个输出,这些输出被随机分成 16 个小批次并只训练一个内部轮次。然而,为了缓解语言混合的问题,我们在 RL 训练中引入了语言一致性奖励,该奖励计算为 CoT 中目标语言词语的比例。
第二阶段强化学习的训练细节
具体而言,我们使用奖励信号和多样化提示分布的组合来训练模型。对于推理数据,我们遵循 DeepSeek-R1-Zero 中提出的方法,该方法使用基于规则的奖励来指导数学、编码和逻辑推理领域的学习。在训练过程中,我们观察到链式思维(CoT)经常出现语言混合,尤其是在强化学习提示涉及多种语言时。对于通用数据,我们使用奖励模型来指导训练。最终,将奖励信号与多样化数据分布相结合,使我们能够开发出不仅在推理方面表现优异,而且优先考虑有用性和无害性的模型。对于一批数据,奖励可表述为
第二阶段的强化学习保留了第一阶段的大部分参数,关键区别是将温度降低到 0.7,因为我们发现该阶段使用更高温度会导致生成内容不连贯。该阶段总共包含 1700 个训练步骤,在最后 400 个步骤中才引入通用指令数据和基于偏好的奖励信号。我们发现,使用基于模型的偏好奖励信号进行更多训练步骤可能导致奖励被操纵,这在补充信息第 2.5 节中有记录。
- Brown, T. B. 等。Language models are few-shot learners。见 Advances in Neural Information Processing Systems 33(由 Larochelle, H. 等编辑)(ACM, 2020)。
- OpenAI 等。GPT4 technical report。
- Wei, J. 等人. Chain-of-thought prompting elicits reasoning in large language models. 收录于 Advances in Neural Information Processing Systems 35 (编者 Koyejo, S. 等) 24824–24837 (ACM, 2022).
- Wei, J. 等人. Emergent abilities of large language models. 收录于 Transactions on Machine Learning Research (编者 Kamath, G. 等) (2022).
- Kaplan, J. 等人. Scaling laws for neural language models.
- Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large language models are zero-shot reasoners. 收录于 Advances in Neural Information Processing Systems 35 (编者 Oh, A. H. 等) 22199–22213 (ACM, 2022).
- Chung, H. W. 等. Scaling instruction-finetuned language models. *J. Mach. Learn. Res.*25, 1–53 (2024).
- DeepSeek-AI 等. DeepSeek-V3 技术报告.
- Shao, Z. 等. DeepSeekMath: 在开放语言模型中突破数学推理极限.
- Wang, X. 等。自洽性提高了语言模型中的连锁思维推理。载于 第 11 届国际表征学习会议 (ICLR,2023)。
- Hendrycks, D. 等。衡量大规模多任务语言理解。载于 第 9 届国际表征学习会议 (ICLR,2021)。
- Gema, A. P. 等。我们已经完成对 MMLU 的研究了吗?载于 2025 年美洲国家分会计算语言学协会大会论文集:人类语言技术 (编者 Chiruzzo, L. 等) 第一卷(长文),5069–5096(ACL,2025)。
- Wang, Y. 等。MMLU-Pro:一个更稳健且更具挑战性的多任务语言理解基准。载于 第 37 届神经信息处理系统进展 (编者 Globersons, A. 等) 95266–95290(ACM,2024)。
- Dua, D. 等. DROP:一个需要对段落进行离散推理的阅读理解基准。载于 Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 第 1 卷(长论文与短论文集)(编者 Burstein, J. 等)2368–2378(ACL,2019)。
- Huang, Y. 等. C-EVAL:一个面向基础模型的多层次多学科中文评估套件。载于 Advances in Neural Information Processing Systems 36(编者 Oh, A. 等)62991–63010(ACM,2023)。
- Zhou, J. 等. 大型语言模型的指令遵循评估。
- Krishna, S. 等. 事实、检索与推理:检索增强生成的统一评估。载于 Proc. 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies 第 1 卷(长论文)4745–4759(ACL,2025)。
- Rein, D. 等. GPQA:一个面向研究生级别的 Google 免疫问答基准。
- He, Y. 等. Chinese SimpleQA:用于大型语言模型的中文事实性评估。载于 第 63 届计算语言学协会年会论文集 第 1 卷(长篇论文),19182–19208 (ACL, 2025)。
- Xu, L. 等. CLUE:中文语言理解评估基准。载于 第 28 届国际计算语言学大会论文集 (编者 Scott, D. 等)4762–4772(国际计算语言学委员会, 2020)。
- Dubois, Y., Galambosi, B., Liang, P. & Hashimoto, T. B. 长度可控的 AlpacaEval:去偏自动评估器的一种简单方法。
- Li, T. 等。从众包数据到高质量基准:Arena-Hard 和 BenchBuilder 流水线。
- Aider。Aider LLM 排行榜
- Jain, N. 等. LiveCodeBench:面向代码的大型语言模型的整体且无污染评估。载于 第 13 届国际表征学习会议 (ICLR,2024)
- Mirzayanov, M. Codeforces
- Paszke, A. 等. PyTorch: 一种命令式风格的高性能深度学习库. 收录于 Advances in Neural Information Processing Systems 32 (编者 Wallach, H. M. 等) 8026–8037 (ACM, 2019).
- Kwon, W. 等. 使用 PagedAttention 的大型语言模型服务的高效内存管理. 收录于 Proc. ACM SIGOPS 29th Symposium on Operating Systems Principles 611–626 (ACM, 2023).
《DeepSeek-R1通过强化学习激励大语言模型推理》附件下载链接: DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning










