搜索

分享

QQ空间 QQ好友新浪微博微信

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

天承办公室 2023-10-01 发布于江苏

展开全文

大纲

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

一、大语言模型的细节

transformer 与 LLM

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.1 模型结构

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.2 训练目标

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.3 tokenizer

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.4 位置编码

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.5 层归一化

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.6 激活函数

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.7 Multi-query Attention 与 Grouped-query Attention

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.8 并行 transformer block

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.9 总结-训练稳定性

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

二、LLM 的分布式预训练

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

点对点通信与集体通信

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.1 数据并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.2 张量并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.3 流水线并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.4 3D 并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.5 混合精度训练

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.6 激活重计算

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.7 ZeRO，零冗余优化器

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.8 CPU-offload，ZeRO-offload

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.9 Flash Attention

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.10 vLLM: Paged Attention

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

三、LLM 的参数高效微调

为什么进行参数高效微调？

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.1 prompt tuning

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.2 prefix tuning

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.3 adapter

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.4 LLaMA adapter

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.5 LoRA

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.6 实验比较

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：天承办公室 > 《008机器学习》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

天承办公室

关注对话

TA的最新馆藏

二战前德国议员做出预言：犹太问题不解决将影响全人类
日本电影中为数不多的好电影，看完让人掉泪，可惜看过的人不多
“一剑霜寒十四州”#刘亦菲 #古装剧中那些惊鸿一瞥的美女
津巴布韦有多穷？6吨重的巨象，仅用24小时就被村民吃的尸骨无存！
大漂亮刘亦菲居然只当过两次伴娘素颜出席朱亚文婚礼 #内容启发搜索 #抖音野生娱评人 #刘亦菲 #朱亚文 #张靓颖
被称为台词天花板的电影、却仅仅上映9天便惨遭下架

喜欢该文的人也喜欢更多

热门阅读换一换