分享

1000字说清周末的“算力之争”

 天承办公室 2025-01-01 发布于北京

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议
图片

周末最大的分歧,估计就是算力之争了。
刷屏讨论的DeepSeek-V3模型,消息称只用了极少数卡,就完成了训练。
导致周五的算力板块大跌。
周末复盘,也就中国股市有这反馈,美股根本不为所动。
简单想想,今年字节在算力投入800亿,明年预估1600亿。会因为这一个模型的训练成本变化,就减少投入吗?
更何况,经过周末的调查了解,这个DeepSeek是走了捷径的模型。
相当于走迷宫,直接有了地图,而不需要逐一开图试错的模式。
以调研的结果做个解析:
DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。
需要注意的是:2048块H800并非全部训练算力投入。
1) 不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。
2) 不包括模型架构的探索调试阶段消耗的算力。
第一条,相当于走迷宫直接开了地图。
第二条,相当于走迷宫之前搭建程序的时间忽略不计。
关键词:蒸馏。蒸馏过的小模型训练成本本来就是指数级下降。因为前面有大模型踩完了所有的坑,它千辛万苦收敛成功了,它作为一个“teacher”模型去教一个“student”模型如何做个好模型,时间正好就是两个月,几百张卡的事。

可是之前踩的坑 都不算成本是吧?幻方去年底就有超过10000张gpu,囤这么多卡都是为了吃灰?小米的卡都没它多。要做新闻也行,不要玩文字游戏太狠。

可是之前踩的坑 都不算成本是吧?幻方去年底就有超过10000张gpu,囤这么多卡都是为了吃灰?小米的卡都没它多。要做新闻也行,不要玩文字游戏太狠。——来源:小熊跑的快

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多