大纲![]() 一、大语言模型的细节transformer 与 LLM ![]() 1.1 模型结构 ![]() 1.2 训练目标 ![]() 1.3 tokenizer ![]() 1.4 位置编码 ![]() 1.5 层归一化 ![]() 1.6 激活函数 ![]() 1.7 Multi-query Attention 与 Grouped-query Attention ![]() 1.8 并行 transformer block ![]() 1.9 总结-训练稳定性 ![]() 二、LLM 的分布式预训练![]() 点对点通信与集体通信 ![]() 2.1 数据并行 ![]() 2.2 张量并行 ![]() ![]() 2.3 流水线并行 ![]() 2.4 3D 并行 ![]() 2.5 混合精度训练 ![]() 2.6 激活重计算 ![]() 2.7 ZeRO,零冗余优化器 ![]() 2.8 CPU-offload,ZeRO-offload ![]() 2.9 Flash Attention ![]() 2.10 vLLM: Paged Attention ![]() 三、LLM 的参数高效微调 为什么进行参数高效微调? ![]() 3.1 prompt tuning ![]() 3.2 prefix tuning ![]() 3.3 adapter ![]() 3.4 LLaMA adapter ![]() 3.5 LoRA ![]() 3.6 实验比较 ![]() |
|