2023年,几乎 AI 的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。 多模态趋势下,Transformer 作为 AI 大模型主流架构的局面是否会撼动?为何探索基于 MoE (专家混合)架构的大模型成为业内新趋势?大型视觉模型 (LVM)能否成为通用视觉的新突破?... 我们从过去的半年发布的2023年机器之心PRO会员通讯中,挑选了 10 份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。 本篇解读来自2023年 Week50 业内通讯 👇专题解读 SLM 是微软「弯道超车」的秘诀吗? 日期:12 月 12 日 事件:微软发布了 27 亿参数的小型语言模型(SLM) Phi-2 ,可在移动设备上运行。Phi-2 的自然语言理解和推理能力在不超过 130 亿 参数的模型中实现了 SOTA 表现。 2023 年,微软通过 Phi 和 Orca 系列工作在探索 SLM (Small Language Model)推理能力上做出了一系列尝试。前者探索了高质量数据对模型能力的影响,后者则聚焦于研究 Prompt 指令指令调整方法对推理的帮助。Phi 系列的演进:用小而美的「教科书质量」数据提高模型能力1、6月20日,微软发布论文《Textbooks Are All You Need》,用规模仅为 7B token 的「教科书质量」数据训练了一个 13 亿 参数的模型 Phi-1。phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率,在 MBPP 上达到了 55.5%,证明了高质量的「小数据」能够让模型具备良好的性能。2、9月11日,微软发表《Textbooks Are All You Need II: phi-1.5 technical report》,提出了同为 13 亿参数的 Phi-1.5。该工作将研究重点放在自然语言常识推理任务上,让 Phi-1.5 的性能可以媲美 5 倍大的模型。3、12 月 12 日,微软所展示的 27 亿参数规模的 Phi-2 在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型。与大 25 倍的 Llama2-70B 模型相比,Phi-2 在多步骤推理任务(即编码和数学)方面实现了更好的性能。Orca 模型的创新:用指令调整教会模型「随机应变」1、6月5日,微软发布了 130 参数的 Orca 模型,当时,Orca 在很多基准测试中的表现已经超越 GPT3.5,但仍弱于 GPT-4。2、11月18日,微软发布论文提出并开源 Orca 2,进一步探索小型语言模型的推理能力。为了教导 Ocra 2 成为一个「谨慎」的推理者,他们提出了一项「提示擦除(Prompt Erasure)」,使模型不仅能够执行特定的推理步骤,而且能够在处理任务时制定更高级别的策略。虽然微软尚未发布 Phi-2 的论文,但官博文章透露了部分 Phi-2 的细节,相关工作涉及的数据筛选逻辑也在其 6 月的论文中有所介绍。1、根据微软的论文,现在的前沿LLM的模型规模已经增加到千亿参数,的确释放了很多新能力,也重新定义了自然语言处理的格局。但仍存在一个问题:是否可以通过训练策略选择(比如数据选择)在较小规模的模型上同样实现这些新能力?2、微软对此开发的 Phi 系列模型通过训练小语言模型实现与大模型类似的性能。Phi-2 主要从数据质量和创新技术两个方面打破了传统语言模型的 Scaling 规则。3、数据质量方面,微软通过重点关注「教科书质量」数据,将「训练数据的质量在模型性能中起着至关重要的作用」的认知发挥到了极致。4、技术创新方面,微软从 13 亿参数的 Phi-1.5 开始,将知识逐渐嵌入到了 27 亿参数的 Phi-2 中。这种规模化知识迁移加速了训练收敛,并显著提升了 Phi-2 的基准测试分数。5、Phi-2 在没有通过人类反馈强化学习 (RLHF) 进行对齐,也没有进行指令微调的前提下,模型以 27 亿(2.7B)的参数量,在各种聚合基准上性能超越了 7B 和 13B 的 Mistral 模型、Llama2 模型,其在毒性和偏见方面的表现仍优于现有开源模型。对比谷歌最近发布的 Gemini Nano2(3.2B 参数),Phi-2 同样能够解答复杂的物理问题,并使用和前者类似的提示纠正学生。Ocra 2 是如何「谨小慎微」,选用合适策略推理答题?在 11 月提出的 Orca 2 中,微软通过让模型成为一个谨慎的推理者(Cautious Reasoner)的方式来提高其推理能力。换句话说,就是通过指令调整,让 Orca-2 决定针对给定任务选择最有效的解决策略,从而得到最准确的结果。1、当前,在推理的过程中,模型对大多数问题都有五种处理模式:① 逐步处理(Step-by-Step Processing);② 回忆然后生成(Recall-Then-Generate);③ 回忆-推理-生成(Recall-Reason-Generate);④ 提取-生成(Extract-Generate);⑤ 直接回答(Direct-Answer Methods)。2、Ocra 2 的训练过程包括从多样化任务集合开始,决定哪些任务需要哪种解决策略,并编写特定任务系统指令以获得教师模型的响应。Ocra 2 的训练过程还使用了「提示擦除」技术,即用通用指令替换详细的系统指令,鼓励学生模型学习潜在策略和推理能力。3、总体而言,通过一系列指导,Orca 2 能够成功学会「随机应变」的方法,最终实现比 70B 的大模型 LLama 2 在推理任务中更优的表现。① 推理方面,Orca 2 在各种推理基准测试中表现出色。Orca-2-13B 在零试推理任务中显著优于同等规模的模型,并与比自己大 5-10 倍的模型竞争。② 知识和语言理解方面,Orca-2-13B 在语言理解、知识和推理方面超过了同等规模的 LLaMA-2-Chat-13B 和 WizardLM-13B 模型,并与更大规模的模型相媲美。③ 文本完善方面,在 HellaSwag 和 LAMBADA 文本完成任务中,Orca-2-7B 和 Orca-2-13B 的表现优于 13B 和 70B 基线模型.........
|