GraphLLM || 图引导的CoT—>>大模型的多跳回答

天承办公室 2024-01-08 发布于北京

展开全文

1. 基本信息和摘要

论文标题：Graph-Guided Reasoning for Multi-Hop Question Answering in Large Language Models

作者：Jinyoung Park, Ameen Patel, Omar Zia Khan, Hyunwoo J. Kim, Joo-Kyung Kim 所属机构：Korea University, Amazon Alexa AI

大语言模型（LLMs）通过扩大模型规模，展现了在各种自然语言处理任务上的卓越性能，而无需针对特定任务进行额外的微调。然而，它们仍然难以处理需要复杂多步推理的挑战性问题，如算术推理、常识推理和多跳问答。

最近，链式思维（CoT）提示方法通过在给出最终答案之前生成一系列中间理由，提高了LLMs的推理能力。尽管CoT提示及其变体在各种推理任务上表现出更好的性能，但它们仍然在多跳问题上存在困难，因为CoT生成的理由有时与问题无关，或者存在幻觉现象。另一方面，之前的CoT方法有时会遗漏生成足够的子问题，以获取相关信息，因为它们主要依赖于上下文学习，将原始问题分解为子问题。

为了解决这些问题，作者提出了一种图引导的CoT提示方法，该方法通过图表示/验证步骤，引导LLMs达到正确的答案。

2. 介绍

本文的主要研究目的是提高大语言模型（LLMs）在多跳问答（Multi-Hop Question Answering，MHQA）任务上的性能。

深度图学习与大模型LLM(小编):
MHQA是一种需要从多个文本段落中获取相关信息，并进行多步推理，以回答复杂问题的任务。例如，为了回答“Who is the author of the book that won the Pulitzer Prize for Fiction in 2019?”，需要从不同的文本段落中找到2019年普利策小说奖的获奖作品、该作品的作者和该作者的姓名等信息，并将它们联系起来。MHQA是一种具有挑战性的任务，因为它不仅需要对文本进行深入的理解，还需要进行跨文本的推理。

LLLMs已经在各种自然语言处理任务上取得了令人瞩目的成果，如文本分类、命名实体识别、文本生成等。然而，LLMs在MHQA任务上仍然表现不佳，因为它们缺乏有效的推理能力。尽管LLMs可以从大规模的文本数据中学习到丰富的语言知识，但它们往往无法将这些知识应用到具体的问题上，或者无法从多个文本段落中整合相关信息。

为了提高LLMs在MHQA任务上的推理能力，本文采用了一种基于链式思维（CoT）提示的方法。CoT提示是一种利用LLMs的生成能力，通过在给出最终答案之前生成一系列中间理由，来引导LLMs进行多步推理的方法。CoT提示可以帮助LLMs分解复杂的问题，获取和整合相关信息，以及检查和验证推理过程。然而，CoT提示仍然存在一些问题，如生成与问题无关的理由，或者无法生成足够的子问题，以获取所有相关信息。

为了解决这些问题，本文提出了一种图引导的CoT提示方法，该方法通过图表示/验证步骤，引导LLMs达到正确的答案。具体来说，本文的方法包括以下几个步骤：

图表示：利用LLMs构建一个“问题/理由图”，该图是一个有向无环图，其中每个节点是一个问题或一个理由，每条边是一个关系。图表示的目的是将问题和理由的语义结构显式地表示出来，以便于后续的推理。

图验证：利用LLMs对当前的理由节点进行诊断，通过将其与现有的问题/理由图进行比较，来过滤掉无关的理由，并生成后续的问题，以获取更多的相关信息。图验证的目的是检查和纠正当前的推理路径，以避免错误或不完整的推理。

图补充：利用LLMs生成不包含图中提取信息的CoT路径，以表示图抽取中遗漏的上下文信息。图补充的目的是补充和完善当前的推理路径，以提高推理的全面性和鲁棒性。

4. 方法

本文的方法是基于链式思维（CoT）提示的，即利用LLMs的生成能力，通过在给出最终答案之前生成一系列中间理由，来引导LLMs进行多步推理的方法。

本文的方法与之前的CoT提示方法的主要区别在于，本文的方法引入了图表示/验证步骤，以显式地表示和检查问题和理由的语义结构，从而提高推理的有效性和准确性。本文的方法的整体流程如图1所示。

图1分为四个部分，分别是问题图构建、中间问题生成、中间答案生成和理由验证。

问题图构建是指利用大型语言模型从问题中提取知识三元组，并将其表示为一个图结构。

中间问题生成是指根据问题图中的三元组，生成一个与初始问题相关的子问题，以获取回答问题所需的信息。

中间答案生成是指利用大型语言模型回答中间问题，并生成一个作为推理步骤的中间答案。在开放领域的设置中，还可以利用检索增强的方法，根据中间问题作为查询，从外部知识库中检索相关的段落，以辅助中间答案的生成。

理由验证是指将生成的中间答案转换为三元组的形式，并与问题图进行匹配，以验证其是否有效和有用。如果中间答案被拒绝，就返回到中间问题生成的步骤。

这个过程重复进行，直到生成的理由图与问题图匹配，或者达到重复的限制。然后，大型语言模型根据所有的中间答案，生成最终的答案。

5.实验

作者的目的是提出一种基于图的推理提示方法，利用知识三元组来指导大型语言模型（LLM）进行复杂的多跳问答任务。作者使用了 Llama-2 作为 LLM，并在三个多跳问答数据集上进行了实验，分别是 2WikiMultihopQA，MuSiQue，和 Bamboogle。作者还探索了在开放领域设置下，使用基于子问题的检索增强生成的效果。

对比方法：作者将他们的方法与以下几种提示方法进行了对比：(1) Chain-of-Thoughts，使用推理步骤来生成答案；

(2) Zero-Plus-Few-Shot CoT，在推理步骤前加入“Let’s think step by step.”；

(3) Self-Consistency，使用多样化的解码温度来采样五条推理路径，并进行多数投票；

(4) Self-ask，使用 Google Search API 来分解问题并检索信息；

(5) No retrieval，不使用任何外部知识；

(6) One retrieval，使用输入问题作为检索查询，并使用检索到的知识来生成答案；

(7) Verify-and-Edit，生成推理步骤后，使用检索到的知识来编辑低置信度的步骤；

(8) FLARE，主动检索知识，并使用检索到的知识来生成答案；

(9) IRCoT，交替地进行检索和生成步骤，并使用检索到的知识来生成答案。

表格1展示了在不使用外部知识的情况下，各种提示方法在三个数据集上的答案级别的精确匹配（EM），令牌级别的 F1，精确度，和召回率。结果显示，作者的方法在所有数据集上都取得了最好的性能，相比于 Chain-of-Thoughts 提示方法，分别在 2WikiMultihopQA，MuSiQue，和 Bamboogle 上提高了 11.4%，8.8%，和 7% 的 EM。

表格2展示了在使用外部知识的情况下，各种提示方法在三个数据集上的答案级别的精确匹配（EM），令牌级别的 F1，精确度，和召回率。结果显示，作者的方法在所有数据集上都取得了最好的性能，相比于 IRCoT 提示方法，分别在 2WikiMultihopQA，MuSiQue，和 Bamboogle 上提高了 0.4%，1%，和 0.8% 的 EM。

表格3展示了在使用 Llama-2-13b 模型的情况下，各种提示方法在三个数据集上的答案级别的精确匹配（EM），令牌级别的 F1，精确度，和召回率。结果显示，作者的方法在所有数据集上都取得了最好的性能，相比于 IRCoT 提示方法，分别在 2WikiMultihopQA，MuSiQue，和 Bamboogle 上提高了 0.6%，1.06%，和 0.6% 的 EM。

表格4展示了在使用 Llama-2-13b 模型并使用外部知识的情况下，各种提示方法在三个数据集上的答案级别的精确匹配（EM），令牌级别的 F1，精确度，和召回率。结果显示，作者的方法在所有数据集上都取得了最好的性能，相比于 IRCoT 提示方法，分别在 2WikiMultihopQA，MuSiQue，和 Bamboogle 上提高了 0.6%，2.06%，和 0.6% 的 EM。