深度学习自然语言处理 原创 昨天Meta AI+CMU这篇文章一出,twitter都炸了! LIMA,只使用1000个精心挑选的样本微调一个 65B LLaMa,无需RLHF,性能媲美甚至优于GPT-4!
天下人苦“对齐”久矣!要让预训练语言模型的响应和特定任务和用户偏好对齐,动辄需要百万示例数据集上的instruction tuning、以及最近从人类反馈中进行的强化学习,才能实现ChatGPT级别的性能。 这篇文章旨在用简单的方法解决复杂的对齐问题,作者提出表面对齐假说(Superficial Alignment Hypothesis),将对齐视为一个简单的过程:学习与用户交互的样式或格式,来展示预训练期间就已经获得的知识和能力! 结果发现,少量高质量样例上的简单微调就足以与当今最先进的技术竞争!这也证明预训练过程的强大威力和重要性,远胜于大规模instruction tuning和强化学习! 实验设置数据集来源:这1000个近似真实用户提示和高质量响应的示例中,有750个来自Stack Exchange和wikiHow这样的社区论坛,其余250个则是手动编写。 微调的超参数:使用AdamW进行微调,其中,权重衰减为0.1。没有热身步骤,初始学习率设置为,并线性地降至训练结束时的。批量大小设为32个示例(更小的模型为64个),长度大于2048 token的文本将被裁剪。与以往的显著不同是在残差连接上应用dropout,从底层的 开始,线性升高到最后一层的 (更小的模型为 )。 基准模型实验将 LIMA 与五个基准模型进行比较: (1) Alpaca 65B :将 LLaMa 65B 在 Alpaca 训练集中的 52,000 个样例上进行微调;(2) OpenAI 的 DaVinci003,经过 RLHF 训练的大语言模型;(3) 基于 PaLM 的 谷歌 Bard;(4) Anthropic 的 Claude, 52B 参数,经过从 AI 反馈进行强化学习 (Constitutional AI) 训练;(5) OpenAI 的 GPT-4,经过 RLHF 训练,目前认为最先进的大语言模型。 结果根据人类偏好的实验结果,LIMA 的表现比 Alpaca 65B 和 DaVinci003 都要更好!尽管Alpaca 65B 的训练数据量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一种被认为是更优秀的对齐方法。 Bard 情况要好,在 42% 的时间产生了比 LIMA 更好的响应;然而,这也意味着至少58%的时间, LIMA 的表现和 Bard 相当。 最后,虽然 Claude 和 GPT-4 通常比 LIMA 的表现更加出色,但很多情况下,LIMA 确实能产生更好的响应。有些讽刺的是,即使是 GPT-4 也有19% 的时间会认为 LIMA 的输出更好。 我们来欣赏下LLaMa的出色表演。蓝色文本为prompt,左边是与训练集中示例相关的提示,中间是训练集中不存在的提示,右边则是挑战模型拒绝不安全行为。 数据质量和多样性更重要为了证明 LIMA (Less Is More for Alignment)这个少胜于多的观点,作者通过消融实验研究了训练数据的多样性、质量和数量对模型的影响。 结果发现,数据质量对生成质量存在显著影响,使用筛选过的数据集训练的模型与使用未经过滤的数据源训练的模型之间存在0.5分差异。但是,令人惊讶的是,示例数量的加倍并不能改善响应的质量。这表明对齐的 scaling laws 不仅仅取决于数量,而在于保证质量的同时提高提示的多样性。 多轮对话不过,一个仅在1,000个单轮对话上进行微调的模型能否从事多轮对话(Multi-Turn Dialogue)呢? 在零样本上,LIMA的响应出奇地连贯,并引用了前面对话的信息。但很明显,这个模型正在超出分布范围;在10次交流中有6次,LIMA在3个互动之内未能遵循提示。 为了提高对话能力,作者收集了30个多轮对话链。使用组合的1,030个示例对预训练的LLaMa模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。发现加入这30个示例后生成质量显著提升,优质响应比例从45.2%提高到76.1%! 30个样本的有限监督就能调用模型的多轮对话能力,这也支持了作者提出的表面对齐假说,即:这些能力是在预训练期间学习的。 总结作者在discussion部分指出了该方法的一系列问题:比如构建数据集示例需要巨大的脑力投入、难以扩展,不如产品级别的模型稳健等~ 话虽如此,这篇研究证明了简单方法就有解决复杂对齐问题的潜力。几乎所有大语言模型中的知识都是在预训练期间学习的,教导模型产生高质量输出只需少量但精心的instructional tuning. 简单才是王道! |
|