分享

DeepSeek从入门到精通(5万字资料精华)

 昵称48503472 2025-02-10 发布于河北

1.DeepSeek官方 核心论文

  1. 核心论文1 DeepSeek-R1:通过强化学习激励 LLM 中的推理能力
  2. 核心论文2 通过长期主义扩展开源语言模型:DeepSeek 大语言模型
  3. 核心论文3 DeepSeek-V3技术报告

2. 海外deepSeek观点重要讨论

  1. SemiAnalysis :DeepSeek 大讨论:中国在成本上的领先地位、真实的训练成本、封闭模型对利润率的影响
  2. 【洞见】硅谷Ben Thompson谈「DeepSeek」FAQ
  3. Deepseek R1可能找到了超越人类的办

核心论文1 :

DeepSeek-R1:通过强化学习激励 LLM 中的推理能力

摘要

我们介绍了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练而无需监督微调(SFT)初步步骤的模型,展示了卓越的推理能力。通过RL,DeepSeek-R1-Zero自然地展现出许多强大且有趣的推理行为。然而,它也遇到了如可读性差、语言混合等问题。为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,它在RL之前结合了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1及其基于Qwen和Llama从DeepSeek-R1蒸馏出的六个密集模型(1.5B, 7B, 8B, 14B, 32B, 70B)。

DeepSeek从入门到精通(5万字资料精华)

1. 引言

近年来,大型语言模型(LLMs)经历了快速迭代与演进(Anthropic, 2024; Google, 2024; OpenAI),逐步缩小了与通用人工智能(AGI)的差距。

后训练(post-training)已成为完整训练流程中的重要组成部分。研究表明,后训练能够以相对较低的计算资源成本提升模型在推理任务中的准确性、与社会价值观对齐的能力,并适应用户偏好。在推理能力方面,OpenAI的o1系列模型首次通过扩展思维链(Chain-of-Thought, CoT)的长度实现了推理性能的显著提升,在数学、编程和科学推理等任务中取得了重大进展。然而,如何在推理过程中有效扩展计算规模仍是一个开放性问题。此前的研究尝试了多种方法,包括基于过程的奖励模型(PRM)、强化学习(RL)以及蒙特卡洛树搜索(MCTS)等算法,但这些方法均未达到与OpenAI o1系列模型相匹敌的通用推理性能。

本文首次探索了如何通过纯强化学习(RL)提升语言模型的推理能力。我们的目标是在不依赖监督数据(SFT)的前提下,通过纯RL过程激励模型自主演化推理能力。具体而言,我们以DeepSeek-V3-Base为基模型,采用GRPO(Shao et al., 2024)作为RL框架,成功训练出首个无需SFT冷启动的推理模型——DeepSeek-R1-Zero。在训练过程中,DeepSeek-R1-Zero自发涌现出多种强大的推理行为(如自我验证、反思和生成长思维链)。经过数千步RL训练后,其在AIME 2024数学竞赛中的pass@1得分从15.6%跃升至71.0%,多数投票(cons@64)后进一步提升至86.7%,性能与OpenAI-o1-0912相当。

然而,DeepSeek-R1-Zero仍面临可读性差、语言混杂等问题。为此,我们进一步提出DeepSeek-R1,通过引入少量冷启动数据(cold-start data)和多阶段训练流程优化模型。具体步骤包括:

  1. 冷启动阶段:收集数千条长思维链数据对基模型进行微调;
  2. 推理导向的强化学习:沿用DeepSeek-R1-Zero的RL流程,但引入语言一致性奖励以抑制语言混杂;
  3. 拒绝采样与监督微调:利用RL检查点生成高质量SFT数据,并结合非推理任务数据(写作、事实问答等)重新训练模型;
  4. 全场景强化学习:结合规则奖励和偏好奖励,进一步对齐人类偏好。

最终,DeepSeek-R1在推理任务中的表现与OpenAI-o1-1217相当。此外,我们通过蒸馏(distillation)将DeepSeek-R1的推理能力迁移至小型稠密模型(1.5B-70B),其中蒸馏后的14B模型显著超越开源标杆QwQ-32B-Preview,32B和70B模型则在推理基准测试中刷新了稠密模型的记录。

1.1 贡献

后训练:基础模型的大规模强化学习

  • 我们直接在基础模型上应用强化学习(RL),而无需依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索链式思维(CoT)来解决复杂问题,从而开发了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维的能力,为研究界树立了一个重要的里程碑。值得注意的是,这是首次公开研究验证大型语言模型(LLMs)的推理能力可以通过纯RL激励实现,而不需要SFT。这一突破为此领域的未来发展铺平了道路。
  • 我们介绍了开发DeepSeek-R1的流程。该流程包含两个旨在发现改进的推理模式并与人类偏好对齐的RL阶段,以及两个作为模型推理和非推理能力种子的SFT阶段。我们相信这个流程将通过创建更好的模型造福行业。

蒸馏:较小的模型也可以很强大

  • 我们证明了较大模型的推理模式可以被蒸馏到较小的模型中,相比于在小模型上通过RL发现的推理模式,这带来了更好的性能。开源的DeepSeek-R1及其API将有助于研究社区在未来蒸馏出更好的小型模型。
  • 使用由DeepSeek-R1生成的推理数据,我们对研究社区广泛使用的几个密集模型进行了微调。评估结果显示,蒸馏后的较小密集模型在基准测试中的表现非常出色。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%,超过了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分是72.6%,在MATH-500上的得分是94.3%,在LiveCodeBench上的得分是57.2%。这些结果显著优于之前的开源模型,并且可与o1-mini相媲美。我们将基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B检查点开源给社区。

1.2. 评估结果总结

推理任务:jinr

  • DeepSeek-R1在AIME 2024上的Pass@1得分为79.8%,略微超过OpenAI-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%得分,表现与OpenAI-o1-1217相当,并且显著优于其他模型。
  • 在编程相关任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,在Codeforces上获得了2,029的Elo评分,超越了比赛中96.3%的人类参与者。对于工程相关的任务,DeepSeek-R1的表现略优于DeepSeek-V3,可以帮助开发者完成实际任务。

知识:

  • 在诸如MMLU、MMLU-Pro和GPQA Diamond等基准测试中,DeepSeek-R1取得了优异的成绩,显著优于DeepSeek-V3,分别在MMLU上得分为90.8%,在MMLU-Pro上得分为84.0%,在GPQA Diamond上得分为71.5%。尽管其在这些基准上的表现略低于OpenAI-o1-1217,但DeepSeek-R1超越了其他闭源模型,展示了其在教育任务中的竞争优势。在事实性基准SimpleQA上,DeepSeek-R1也优于DeepSeek-V3,展示了其处理基于事实查询的能力。

其他:

  • DeepSeek-R1还在广泛的其他任务中表现出色,包括创意写作、一般问答、编辑、摘要等。它在AlpacaEval 2.0上实现了令人印象深刻的长度控制胜率87.6%,在ArenaHard上的胜率为92.3%,展示了其智能处理非考试导向查询的强大能力。此外,DeepSeek-R1在需要长上下文理解的任务中表现出色,显著优于DeepSeek-V3在长上下文基准上的表现

2. 方法

2.1 概述

传统方法严重依赖监督数据提升模型性能。本研究证明,即使不依赖监督微调(SFT),仅通过大规模强化学习(RL)即可显著提升推理能力,而引入少量冷启动数据可进一步优化性能。具体方法包括:

  • DeepSeek-R1-Zero:直接在基模型上应用RL,无任何SFT数据;
  • DeepSeek-R1:基于冷启动数据微调后的检查点进行多阶段RL;
  • 蒸馏:将DeepSeek-R1的推理能力迁移至小型模型。

2.2 DeepSeek-R1-Zero:基模型的强化学习

强化学习在推理任务中展示了显著的有效性,这从我们之前的工作(Shao等人,2024;Wang等人,2023)中可以得到证实。然而,这些工作严重依赖于监督数据,而这些数据的收集非常耗时。在本节中,我们将探讨大型语言模型(LLMs)在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯强化学习过程进行自我演进的能力。

我们首先简要概述我们的RL算法,然后展示一些令人兴奋的结果,希望这能为研究社区提供宝贵的见解。具体内容如下:

  • 强化学习算法简介:我们将介绍用于训练模型的强化学习算法的基本框架和关键组件,解释如何通过奖励机制引导模型进行自我优化。
  • 实验结果展示:接下来,我们会展示一系列实验结果,这些结果显示了模型在没有监督数据的情况下,仅通过强化学习就能获得强大的推理能力。具体包括模型在不同推理任务中的表现,如数学问题解决、逻辑推理等。
  • 社区贡献与未来展望:最后,我们会讨论这些发现对研究社区的意义,并提出未来可能的研究方向。我们希望通过这些成果,激发更多的研究者探索无监督数据条件下的强化学习方法,进一步推动LLMs的发展。

通过这一系列探索,我们希望能够为社区提供新的思路和技术手段,促进更加高效和智能的语言模型开发。

2.2.1 强化学习算法

组相对策略优化(Group Relative Policy Optimization, GRPO):

为了节省强化学习(RL)的训练成本,我们采用了组相对策略优化(GRPO)(Shao 等人,2024),它放弃了通常与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体来说,对于每个问题 q,GRPO 从旧策略 πθold 中采样一组输出 {o1,o2,⋯,oG},然后通过最大化以下目标来优化策略模型 πθ

DeepSeek从入门到精通(5万字资料精华)

其中 ε 和 β 是超参数,使用每个组内输出对应的一组奖励 {r1,r2,…,rG} 计算优势参数Ai:

DeepSeek从入门到精通(5万字资料精华)
DeepSeek从入门到精通(5万字资料精华)

表1 | DeepSeek-R1-Zero 的模板。prompt在训练的过程中会用特定的解释性问题替换

2.2.2. 奖励建模

奖励是训练信号的来源,它决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero,我们采用了基于规则的奖励系统,主要由两种类型的奖励组成:

  • 准确率奖励:准确率奖励模型评估响应是否正确。例如,对于具有确定性结果的数学问题,模型需要以指定格式(例如,在框内)提供最终答案,从而实现可靠的基于规则的正确性验证。同样,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。
  • 格式奖励:除了准确率奖励模型外,我们还采用了格式奖励模型,该模型强制模型将其思考过程置于 '
  • ' 和 '
  • ' 标签之间。

在开发 DeepSeek-R1-Zero 时,我们没有应用结果或过程神经奖励模型,因为我们发现神经奖励模型在大规模强化学习过程中可能会遭受奖励黑客攻击,重新训练奖励模型需要额外的训练资源,并且使整个训练管道复杂化。

2.2.3. 训练模板

为了训练 DeepSeek-R1-Zero,我们首先设计一个简单的模板,指导基本模型遵守我们指定的指令。如表 1 所示,此模板要求 DeepSeek-R1-Zero 首先生成一个推理过程,然后是最终答案。我们有意将约束限制在这种结构格式上,避免任何特定于内容的偏见 —— 例如强制进行反思推理或推广特定的问题解决策略 —— 以确保我们能够在 RL 过程中准确观察模型的自然进展。

2.2.4. DeepSeek-R1-Zero 的性能、自进化过程和顿悟矩

DeepSeek-R1-Zero 的性能 图 2 描述了 DeepSeekR1-Zero 在整个 RL 训练过程中在 AIME 2024 基准测试中的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的性能得到了稳定和一致的增强。值得注意的是,AIME 2024 的平均 pass@1 分数显示显着提高,从最初的 15.6% 跃升至令人印象深刻的 71.0%,达到与 OpenAI-o1-0912 相当的性能水平。这一显著改进凸显了我们的 RL 算法在随时间推移优化模型性能方面的有效性。

DeepSeek从入门到精通(5万字资料精华)

表 2 |DeepSeek-R1-Zero 和 OpenAI o1 模型在推理相关基准测试中的比较

DeepSeek从入门到精通(5万字资料精华)

图 2 |DeepSeek-R1-Zero 在训练期间的 AIME 准确性。对于每个问题,我们抽样 16 个回答并计算总体平均准确性,以确保评估稳定

表 2 提供了 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中的比较分析。研究结果表明,RL 赋予DeepSeek-R1-Zero 获得强大的推理能力,而无需任何监督微调数据。这是一项值得注意的成就,因为它强调了该模型仅通过 RL 有效学习和泛化的能力。此外,DeepSeekR1-Zero 的性能可以通过多数投票的应用进一步增强。例如,当 AIME 基准测试采用多数表决时,DeepSeek-R1-Zero 的性能从 71.0% 升级到 86.7%,从而超过了 OpenAI-o1-0912 的性能。DeepSeek-R1-Zero 能够在有和没有多数投票的情况下实现如此有竞争力的性能,这凸显了其强大的基础能力和在推理任务中进一步发展的潜力。

DeepSeek-R1-Zero 的自我进化过程 DeepSeek-R1-Zero 的自我进化过程是一个引人入胜的演示,展示了 RL 如何驱动模型自主提高其推理能力。通过直接从基础模型启动 RL,我们可以密切监控模型的进度,而不受监督微调阶段的影响。这种方法清楚地展示了模型如何随着时间的推移而演变,特别是在处理复杂推理任务的能力方面。

如图 3 所示,DeepSeek-R1-Zero 的思考时间显示出持续的改善贯穿整个培训过程。这种改进不是外部调整的结果,而是模型内部的内在发展。DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然而然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

DeepSeek从入门到精通(5万字资料精华)

图 3 |RL 过程中 DeepSeek-R1-Zero 在训练集上的平均响应长度。DeepSeek-R1-Zero 自然而然地学会了用更多的思考时间来解决推理任务

这种自我进化最引人注目的方面之一是随着测试时间计算的增加而出现复杂的行为。诸如反射(模型重新审视和重新评估其先前步骤)等行为以及探索解决问题的替代方法等行为都会自发出现。这些行为没有被显式编程,而是作为模型与强化学习环境交互的结果而出现的。这种自发开发显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。

DeepSeek-R1-Zero 的 Aha Moment 在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是 “Aha Moment” 的出现。如表 3 所示,这个时刻发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意想不到的复杂结果的迷人例子。

这一刻不仅是模型的 “顿悟时刻”,也是观察其行为的研究人员的 “顿悟时刻”。它强调了强化学习的力量和美感:我们不是明确地教模型如何解决问题,而是简单地为其提供正确的激励措施,然后它就会自主开发高级问题解决策略。“顿悟时刻” 有力地提醒我们,RL 有可能在人工系统中解锁新的智能水平,为未来更加自主和自适应的模型铺平道路。

DeepSeek从入门到精通(5万字资料精华)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多