1.DeepSeek官方 核心论文
2. 海外deepSeek观点重要讨论
核心论文1 : DeepSeek-R1:通过强化学习激励 LLM 中的推理能力 摘要 我们介绍了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而无需监督微调(SFT)初步步骤的模型,展示了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地展现出许多强大且有趣的推理行为。然而,它也遇到了如可读性差、语言混合等问题。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1及其基于Qwen和Llama从DeepSeek-R1蒸馏出的六个密集模型(1.5B, 7B, 8B, 14B, 32B, 70B)。 ![]() 1. 引言 近年来,大型语言模型(LLMs)经历了快速迭代与演进(Anthropic, 2024; Google, 2024; OpenAI),逐步缩小了与通用人工智能(AGI)的差距。 后训练(post-training)已成为完整训练流程中的重要组成部分。研究表明,后训练能够以相对较低的计算资源成本提升模型在推理任务中的准确性、与社会价值观对齐的能力,并适应用户偏好。在推理能力方面,OpenAI的o1系列模型首次通过扩展思维链(Chain-of-Thought, CoT)的长度实现了推理性能的显著提升,在数学、编程和科学推理等任务中取得了重大进展。然而,如何在推理过程中有效扩展计算规模仍是一个开放性问题。此前的研究尝试了多种方法,包括基于过程的奖励模型(PRM)、强化学习(RL)以及蒙特卡洛树搜索(MCTS)等算法,但这些方法均未达到与OpenAI o1系列模型相匹敌的通用推理性能。 本文首次探索了如何通过纯强化学习(RL)提升语言模型的推理能力。我们的目标是在不依赖监督数据(SFT)的前提下,通过纯RL过程激励模型自主演化推理能力。具体而言,我们以DeepSeek-V3-Base为基模型,采用GRPO(Shao et al., 2024)作为RL框架,成功训练出首个无需SFT冷启动的推理模型——DeepSeek-R1-Zero。在训练过程中,DeepSeek-R1-Zero自发涌现出多种强大的推理行为(如自我验证、反思和生成长思维链)。经过数千步RL训练后,其在AIME 2024数学竞赛中的pass@1得分从15.6%跃升至71.0%,多数投票(cons@64)后进一步提升至86.7%,性能与OpenAI-o1-0912相当。 然而,DeepSeek-R1-Zero仍面临可读性差、语言混杂等问题。为此,我们进一步提出DeepSeek-R1,通过引入少量冷启动数据(cold-start data)和多阶段训练流程优化模型。具体步骤包括:
最终,DeepSeek-R1在推理任务中的表现与OpenAI-o1-1217相当。此外,我们通过蒸馏(distillation)将DeepSeek-R1的推理能力迁移至小型稠密模型(1.5B-70B),其中蒸馏后的14B模型显著超越开源标杆QwQ-32B-Preview,32B和70B模型则在推理基准测试中刷新了稠密模型的记录。 1.1 贡献 后训练:基础模型的大规模强化学习
蒸馏:较小的模型也可以很强大
1.2. 评估结果总结 推理任务:jinr
知识:
其他:
2. 方法 2.1 概述 传统方法严重依赖监督数据提升模型性能。本研究证明,即使不依赖监督微调(SFT),仅通过大规模强化学习(RL)即可显著提升推理能力,而引入少量冷启动数据可进一步优化性能。具体方法包括:
2.2 DeepSeek-R1-Zero:基模型的强化学习 强化学习在推理任务中展示了显著的有效性,这从我们之前的工作(Shao等人,2024;Wang等人,2023)中可以得到证实。然而,这些工作严重依赖于监督数据,而这些数据的收集非常耗时。在本节中,我们将探讨大型语言模型(LLMs)在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯强化学习过程进行自我演进的能力。 我们首先简要概述我们的RL算法,然后展示一些令人兴奋的结果,希望这能为研究社区提供宝贵的见解。具体内容如下:
通过这一系列探索,我们希望能够为社区提供新的思路和技术手段,促进更加高效和智能的语言模型开发。 2.2.1 强化学习算法 组相对策略优化(Group Relative Policy Optimization, GRPO): 为了节省强化学习(RL)的训练成本,我们采用了组相对策略优化(GRPO)(Shao 等人,2024),它放弃了通常与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体来说,对于每个问题 q,GRPO 从旧策略 πθold 中采样一组输出 {o1,o2,⋯,oG},然后通过最大化以下目标来优化策略模型 πθ: ![]() 其中 ε 和 β 是超参数,使用每个组内输出对应的一组奖励 {r1,r2,…,rG} 计算优势参数Ai: ![]() ![]() 表1 | DeepSeek-R1-Zero 的模板。prompt在训练的过程中会用特定的解释性问题替换 2.2.2. 奖励建模 奖励是训练信号的来源,它决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要由两种类型的奖励组成:
在开发 DeepSeek-R1-Zero 时,我们没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击,重新训练奖励模型需要额外的训练资源,并且使整个训练管道复杂化。 2.2.3. 训练模板 为了训练 DeepSeek-R1-Zero,我们首先设计一个简单的模板,指导基本模型遵守我们指定的指令。如表 1 所示,此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程,然后是最终答案。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见 —— 例如强制进行反思推理或推广特定的问题解决策略 —— 以确保我们能够在 RL 过程中准确观察模型的自然进展。 2.2.4. DeepSeek-R1-Zero 的性能、自进化过程和顿悟矩 DeepSeek-R1-Zero 的性能 图 2 描述了 DeepSeekR1-Zero 在整个 RL 训练过程中在 AIME 2024 基准测试中的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的性能得到了稳定和一致的增强。值得注意的是,AIME 2024 的平均 pass@1 分数显示显着提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到与 OpenAI-o1-0912 相当的性能水平。这一显著改进凸显了我们的 RL 算法在随时间推移优化模型性能方面的有效性。 ![]() 表 2 |DeepSeek-R1-Zero 和 OpenAI o1 模型在推理相关基准测试中的比较 ![]() 图 2 |DeepSeek-R1-Zero 在训练期间的 AIME 准确性。对于每个问题,我们抽样 16 个回答并计算总体平均准确性,以确保评估稳定 表 2 提供了 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果表明,RL 赋予DeepSeek-R1-Zero 获得强大的推理能力,而无需任何监督微调数据。这是一项值得注意的成就,因为它强调了该模型仅通过 RL 有效学习和泛化的能力。此外,DeepSeekR1-Zero 的性能可以通过多数投票的应用进一步增强。例如,当 AIME 基准测试采用多数表决时,DeepSeek-R1-Zero 的性能从 71.0% 升级到 86.7%,从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有和没有多数投票的情况下实现如此有竞争力的性能,这凸显了其强大的基础能力和在推理任务中进一步发展的潜力。 DeepSeek-R1-Zero 的自我进化过程 DeepSeek-R1-Zero 的自我进化过程是一个引人入胜的演示,展示了 RL 如何驱动模型自主提高其推理能力。通过直接从基础模型启动 RL,我们可以密切监控模型的进度,而不受监督微调阶段的影响。这种方法清楚地展示了模型如何随着时间的推移而演变,特别是在处理复杂推理任务的能力方面。 如图 3 所示,DeepSeek-R1-Zero 的思考时间显示出持续的改善贯穿整个培训过程。这种改进不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然而然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。 ![]() 图 3 |RL 过程中 DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然而然地学会了用更多的思考时间来解决推理任务 这种自我进化最引人注目的方面之一是随着测试时间计算的增加而出现复杂的行为。诸如反射(模型重新审视和重新评估其先前步骤)等行为以及探索解决问题的替代方法等行为都会自发出现。这些行为没有被显式编程,而是作为模型与强化学习环境交互的结果而出现的。这种自发开发显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。 DeepSeek-R1-Zero 的 Aha Moment 在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是 “Aha Moment” 的出现。如表 3 所示,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意想不到的复杂结果的迷人例子。 这一刻不仅是模型的 “顿悟时刻”,也是观察其行为的研究人员的 “顿悟时刻”。它强调了强化学习的力量和美感:我们不是明确地教模型如何解决问题,而是简单地为其提供正确的激励措施,然后它就会自主开发高级问题解决策略。“顿悟时刻” 有力地提醒我们,RL 有可能在人工系统中解锁新的智能水平,为未来更加自主和自适应的模型铺平道路。 ![]() |
|
来自: 昵称48503472 > 《深邃思想主页》