本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议
 刷屏讨论的DeepSeek-V3模型,消息称只用了极少数卡,就完成了训练。周末复盘,也就中国股市有这反馈,美股根本不为所动。 简单想想,今年字节在算力投入800亿,明年预估1600亿。会因为这一个模型的训练成本变化,就减少投入吗?更何况,经过周末的调查了解,这个DeepSeek是走了捷径的模型。相当于走迷宫,直接有了地图,而不需要逐一开图试错的模式。 DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。需要注意的是:2048块H800并非全部训练算力投入。1) 不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。(关键词:蒸馏。蒸馏过的小模型训练成本本来就是指数级下降。因为前面有大模型踩完了所有的坑,它千辛万苦收敛成功了,它作为一个“teacher”模型去教一个“student”模型如何做个好模型,时间正好就是两个月,几百张卡的事。可是之前踩的坑 都不算成本是吧?幻方去年底就有超过10000张gpu,囤这么多卡都是为了吃灰?小米的卡都没它多。要做新闻也行,不要玩文字游戏太狠。 可是之前踩的坑 都不算成本是吧?幻方去年底就有超过10000张gpu,囤这么多卡都是为了吃灰?小米的卡都没它多。要做新闻也行,不要玩文字游戏太狠。——来源:小熊跑的快)
|