DeepSeekR1创新点解读（附概念股）

真友书屋 2025-01-26

展开全文

主要工作：

1）DeepSeek此次发布了DeepSeek-R1-Zero和DeepSeek-R1模型。DeepSeek-R1-Zero模型仅依靠大规模强化学习训练，没有监督微调，便实现了推理能力的自主进化，自发涌现出“反思”、“多步验证”等复杂推理行为，尤其是逻辑能力得到大幅飞跃。

2）但该模型存在可读性差、语言混合等问题，为了解决这一问题，DeepSeek-R1模型通过冷启动数据和迭代强化学习微调实现：通过数千条高质量长推理链数据对基础模型微调，强制规范输出，提高可读性，同时在语言一致性上进行了训练提升，并且融入了人类偏好奖励模型，对模型进行了规范。

3）使用DeepSeek-R1作为教师模型生成800K数据，并对多个小型密集模型微调，小模型性能飞跃。以通义千问的15亿参数量大模型为例，经过DeepSeek微调后，数学题上超过GPT4o-0513的水平。

核心创新点：

1）传统大模型需要大量人工标注的监督数据进行训练，但DeepSeek-R1-Zero首次验证了无需任何微调数据，【仅通过强化学习即可实现推理能力的自主进化】。而且这是没有奖励思维链长度（通俗讲，没有引导推理模型用更多的时间去思考）的情况下实现的，即目标只是为了作对题目，大模型就会自发进行更长地思考，并且最后回答效果更好。

2）在这个过程中，【观察到了反思、多步验证能力的涌现】，出现问题后，模型会自动纠正早期错误。

#重要性：前两条非常重要，一个是指出新道路，一个是证明这条道路有巨大的潜力，会进一步加速Agent应用。

3）尽管DeepSeek-R1-Zero足够优秀，但他经常会出现中英文混杂、格式混乱的现象，工程上仍需优化。因此DeepSeek-R1模型通过与人类知识、经验、规范相融合，实现了更好的输出。

4）能力可以迁移：把R1蒸馏后可实现推理能力迁移，小模型也可以在特定任务中媲美大模型。

#重要性：小算力也可实现复杂功能，在边缘场景，如自动驾驶、机器人等一系列实时应用提供更好的方案。

DeepSeek相关概念股：

✔每日互动：幻方股东/技术负责人徐进为每日互动联合创始人之一。

✔浙江东方：通过旗下杭州东方嘉富基金参投DeepSeek天使轮。市场传闻，注意风险。

✔华金资本：珠海国资旗下投资平台间接参与DeepSeekPre-A轮融资。市场传闻，注意风险。

✔浪潮信息：为DeepSeek北京亦庄智算中心提供AI服务器集群及英伟达H800+自研AIStation管理平台。

✔中科曙光：承建DeepSeek杭州训练中心液冷系统。

✔航锦科技：旗下超擎数智为DeepSeek提供光模块和交换机，双方深度合作。