分享

DeepSeekR1创新点解读(附概念股)

 真友书屋 2025-01-26

主要工作:

1)DeepSeek此次发布了DeepSeek-R1-Zero和DeepSeek-R1模型。DeepSeek-R1-Zero模型仅依靠大规模强化学习训练,没有监督微调,便实现了推理能力的自主进化,自发涌现出“反思”、“多步验证”等复杂推理行为,尤其是逻辑能力得到大幅飞跃。

2)但该模型存在可读性差、语言混合等问题,为了解决这一问题,DeepSeek-R1模型通过冷启动数据和迭代强化学习微调实现:通过数千条高质量长推理链数据对基础模型微调,强制规范输出,提高可读性,同时在语言一致性上进行了训练提升,并且融入了人类偏好奖励模型,对模型进行了规范。

3)使用DeepSeek-R1作为教师模型生成800K数据,并对多个小型密集模型微调,小模型性能飞跃。以通义千问的15亿参数量大模型为例,经过DeepSeek微调后,数学题上超过GPT4o-0513的水平。

核心创新点:

1)传统大模型需要大量人工标注的监督数据进行训练,但DeepSeek-R1-Zero首次验证了无需任何微调数据,【仅通过强化学习即可实现推理能力的自主进化】。而且这是没有奖励思维链长度(通俗讲,没有引导推理模型用更多的时间去思考)的情况下实现的,即目标只是为了作对题目,大模型就会自发进行更长地思考,并且最后回答效果更好。

2)在这个过程中,【观察到了反思、多步验证能力的涌现】,出现问题后,模型会自动纠正早期错误。

#重要性:前两条非常重要,一个是指出新道路,一个是证明这条道路有巨大的潜力,会进一步加速Agent应用。

3)尽管DeepSeek-R1-Zero足够优秀,但他经常会出现中英文混杂、格式混乱的现象,工程上仍需优化。因此DeepSeek-R1模型通过与人类知识、经验、规范相融合,实现了更好的输出。

4)能力可以迁移:把R1蒸馏后可实现推理能力迁移,小模型也可以在特定任务中媲美大模型。

#重要性:小算力也可实现复杂功能,在边缘场景,如自动驾驶、机器人等一系列实时应用提供更好的方案。

DeepSeek相关概念股:

✔每日互动:幻方股东/技术负责人徐进为每日互动联合创始人之一。

✔浙江东方:通过旗下杭州东方嘉富基金参投DeepSeek天使轮。市场传闻,注意风险。

✔华金资本:珠海国资旗下投资平台间接参与DeepSeekPre-A轮融资。市场传闻,注意风险。

✔浪潮信息:为DeepSeek北京亦庄智算中心提供AI服务器集群及英伟达H800+自研AIStation管理平台。

✔中科曙光:承建DeepSeek杭州训练中心液冷系统。

✔航锦科技:旗下超擎数智为DeepSeek提供光模块和交换机,双方深度合作。

✔拓尔思:与DeepSeek联合开发金融舆情大模型,已在中信证券等机构部署智能研报生成系统。

✔阳光照明:曾购买幻方3亿产品,且其电器出海业务外销占比75%,有望与幻方在相关业务上协同发展。

✔飞利信:是目前市场上采用MLA机制不多的上市公司,而DeepSeek-V2采用了创新的包括MLA在内的模型架构和训练方法。

✔卓创资讯:幻方作为大型私募,与卓创资讯在金融语料库方面有合作。

✔南威软件:在人工智能方面,基于多头注意力机制和增强特征金字塔方法,掌握了新型的生物认证技术,与DeepSeek的技术有一定关联性。

✔海天瑞声:海天瑞声以数据服务为刃,切入幻方的发展脉络,幻方的蓬勃发展将牵引着海天瑞声订单量与业务收入节节攀升。

✔科大讯飞:在教育领域接入了DeepSeek-Math模型并联合推出了AI数学辅导应用“星火助学”。

✔竞业达:与百度、阿里、腾讯等国内科技巨头合作,使用其AI大模型(如百度的文心大型),竞业达与DeepSeek大模型的对接中。

✔金山办公:WPS智能写作功能集成DeepSeek-Writer API,公文生成效率提升3倍,错误率下降90%。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多