分享

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

 天承办公室 2023-10-01 发布于江苏

大纲

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

一、大语言模型的细节

transformer 与 LLM

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.1 模型结构

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.2 训练目标

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.3 tokenizer

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.4 位置编码

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.5 层归一化

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.6 激活函数

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.7 Multi-query Attention 与 Grouped-query Attention

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.8 并行 transformer block

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

1.9 总结-训练稳定性

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

二、LLM 的分布式预训练

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

点对点通信与集体通信

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.1 数据并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.2 张量并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享
「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.3 流水线并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.4 3D 并行

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.5 混合精度训练

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.6 激活重计算

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.7 ZeRO,零冗余优化器

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.8 CPU-offload,ZeRO-offload

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.9 Flash Attention

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

2.10 vLLM: Paged Attention

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

三、LLM 的参数高效微调

为什么进行参数高效微调?

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.1 prompt tuning

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.2 prefix tuning

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.3 adapter

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.4 LLaMA adapter

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.5 LoRA

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

3.6 实验比较

「人工智能」不可错过的主流大语言模型的技术原理细节图文分享

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多