1. 基本信息和摘要论文标题:Graph-Guided Reasoning for Multi-Hop Question Answering in Large Language Models 作者:Jinyoung Park, Ameen Patel, Omar Zia Khan, Hyunwoo J. Kim, Joo-Kyung Kim 所属机构:Korea University, Amazon Alexa AI 大语言模型(LLMs)通过扩大模型规模,展现了在各种自然语言处理任务上的卓越性能,而无需针对特定任务进行额外的微调。然而,它们仍然难以处理需要复杂多步推理的挑战性问题,如算术推理、常识推理和多跳问答。 最近,链式思维(CoT)提示方法通过在给出最终答案之前生成一系列中间理由,提高了LLMs的推理能力。尽管CoT提示及其变体在各种推理任务上表现出更好的性能,但它们仍然在多跳问题上存在困难,因为CoT生成的理由有时与问题无关,或者存在幻觉现象。另一方面,之前的CoT方法有时会遗漏生成足够的子问题,以获取相关信息,因为它们主要依赖于上下文学习,将原始问题分解为子问题。 为了解决这些问题,作者提出了一种图引导的CoT提示方法,该方法通过图表示/验证步骤,引导LLMs达到正确的答案。 2. 介绍本文的主要研究目的是提高大语言模型(LLMs)在多跳问答(Multi-Hop Question Answering,MHQA)任务上的性能。 深度图学习与大模型LLM(小编): LLLMs已经在各种自然语言处理任务上取得了令人瞩目的成果,如文本分类、命名实体识别、文本生成等。然而,LLMs在MHQA任务上仍然表现不佳,因为它们缺乏有效的推理能力。尽管LLMs可以从大规模的文本数据中学习到丰富的语言知识,但它们往往无法将这些知识应用到具体的问题上,或者无法从多个文本段落中整合相关信息。 为了提高LLMs在MHQA任务上的推理能力,本文采用了一种基于链式思维(CoT)提示的方法。CoT提示是一种利用LLMs的生成能力,通过在给出最终答案之前生成一系列中间理由,来引导LLMs进行多步推理的方法。CoT提示可以帮助LLMs分解复杂的问题,获取和整合相关信息,以及检查和验证推理过程。然而,CoT提示仍然存在一些问题,如生成与问题无关的理由,或者无法生成足够的子问题,以获取所有相关信息。 为了解决这些问题,本文提出了一种图引导的CoT提示方法,该方法通过图表示/验证步骤,引导LLMs达到正确的答案。具体来说,本文的方法包括以下几个步骤: 图表示:利用LLMs构建一个“问题/理由图”,该图是一个有向无环图,其中每个节点是一个问题或一个理由,每条边是一个关系。图表示的目的是将问题和理由的语义结构显式地表示出来,以便于后续的推理。 图验证:利用LLMs对当前的理由节点进行诊断,通过将其与现有的问题/理由图进行比较,来过滤掉无关的理由,并生成后续的问题,以获取更多的相关信息。图验证的目的是检查和纠正当前的推理路径,以避免错误或不完整的推理。 图补充:利用LLMs生成不包含图中提取信息的CoT路径,以表示图抽取中遗漏的上下文信息。图补充的目的是补充和完善当前的推理路径,以提高推理的全面性和鲁棒性。 4. 方法本文的方法是基于链式思维(CoT)提示的,即利用LLMs的生成能力,通过在给出最终答案之前生成一系列中间理由,来引导LLMs进行多步推理的方法。 本文的方法与之前的CoT提示方法的主要区别在于,本文的方法引入了图表示/验证步骤,以显式地表示和检查问题和理由的语义结构,从而提高推理的有效性和准确性。本文的方法的整体流程如图1所示。 图1分为四个部分,分别是问题图构建、中间问题生成、中间答案生成和理由验证。 问题图构建是指利用大型语言模型从问题中提取知识三元组,并将其表示为一个图结构。 中间问题生成是指根据问题图中的三元组,生成一个与初始问题相关的子问题,以获取回答问题所需的信息。 中间答案生成是指利用大型语言模型回答中间问题,并生成一个作为推理步骤的中间答案。在开放领域的设置中,还可以利用检索增强的方法,根据中间问题作为查询,从外部知识库中检索相关的段落,以辅助中间答案的生成。 理由验证是指将生成的中间答案转换为三元组的形式,并与问题图进行匹配,以验证其是否有效和有用。如果中间答案被拒绝,就返回到中间问题生成的步骤。 这个过程重复进行,直到生成的理由图与问题图匹配,或者达到重复的限制。然后,大型语言模型根据所有的中间答案,生成最终的答案。 5.实验作者的目的是提出一种基于图的推理提示方法,利用知识三元组来指导大型语言模型(LLM)进行复杂的多跳问答任务。作者使用了 Llama-2 作为 LLM,并在三个多跳问答数据集上进行了实验,分别是 2WikiMultihopQA,MuSiQue,和 Bamboogle。作者还探索了在开放领域设置下,使用基于子问题的检索增强生成的效果。 对比方法:作者将他们的方法与以下几种提示方法进行了对比:(1) Chain-of-Thoughts,使用推理步骤来生成答案; (2) Zero-Plus-Few-Shot CoT,在推理步骤前加入“Let’s think step by step.”; (3) Self-Consistency,使用多样化的解码温度来采样五条推理路径,并进行多数投票; (4) Self-ask,使用 Google Search API 来分解问题并检索信息; (5) No retrieval,不使用任何外部知识; (6) One retrieval,使用输入问题作为检索查询,并使用检索到的知识来生成答案; (7) Verify-and-Edit,生成推理步骤后,使用检索到的知识来编辑低置信度的步骤; (8) FLARE,主动检索知识,并使用检索到的知识来生成答案; (9) IRCoT,交替地进行检索和生成步骤,并使用检索到的知识来生成答案。 表格1展示了在不使用外部知识的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 Chain-of-Thoughts 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 11.4%,8.8%,和 7% 的 EM。 表格2展示了在使用外部知识的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 IRCoT 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 0.4%,1%,和 0.8% 的 EM。 表格3展示了在使用 Llama-2-13b 模型的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 IRCoT 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 0.6%,1.06%,和 0.6% 的 EM。 表格4展示了在使用 Llama-2-13b 模型并使用外部知识的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 IRCoT 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 0.6%,2.06%,和 0.6% 的 EM。 本文使用的知识检索方法基于BM25检索器,在维基百科语料库上进行检索,这可能会导致检索到的知识不够相关或不够全面,影响推理的准确性。 |
|