1000字说清周末的“算力之争”

天承办公室 2025-01-01 发布于北京

展开全文

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议

周末最大的分歧，估计就是算力之争了。

刷屏讨论的DeepSeek-V3模型，消息称只用了极少数卡，就完成了训练。

导致周五的算力板块大跌。

周末复盘，也就中国股市有这反馈，美股根本不为所动。

简单想想，今年字节在算力投入800亿，明年预估1600亿。会因为这一个模型的训练成本变化，就减少投入吗？

更何况，经过周末的调查了解，这个DeepSeek是走了捷径的模型。

相当于走迷宫，直接有了地图，而不需要逐一开图试错的模式。

以调研的结果做个解析：

DeepSeek V3 671B，使用2048块H800训练2个月，而Llama 3.1 405B使用1.6万H100训练80天。

需要注意的是：2048块H800并非全部训练算力投入。

1）不包括DeepSeek R1模型（对标OpenAI o1）生成的高质量数据消耗的算力。

2）不包括模型架构的探索调试阶段消耗的算力。

第一条，相当于走迷宫直接开了地图。

第二条，相当于走迷宫之前搭建程序的时间忽略不计。

（关键词：蒸馏。蒸馏过的小模型训练成本本来就是指数级下降。因为前面有大模型踩完了所有的坑，它千辛万苦收敛成功了，它作为一个“teacher”模型去教一个“student”模型如何做个好模型，时间正好就是两个月，几百张卡的事。

可是之前踩的坑都不算成本是吧？幻方去年底就有超过10000张gpu，囤这么多卡都是为了吃灰？小米的卡都没它多。要做新闻也行，不要玩文字游戏太狠。

可是之前踩的坑都不算成本是吧？幻方去年底就有超过10000张gpu，囤这么多卡都是为了吃灰？小米的卡都没它多。要做新闻也行，不要玩文字游戏太狠。——来源：小熊跑的快）

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：天承办公室 > 《010参谋必备》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

天承办公室

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换