分享

GraphLLM || 图引导的CoT—>>大模型的多跳回答

 天承办公室 2024-01-08 发布于北京

1. 基本信息和摘要

论文标题:Graph-Guided Reasoning for Multi-Hop Question Answering in Large Language Models

作者:Jinyoung Park, Ameen Patel, Omar Zia Khan, Hyunwoo J. Kim, Joo-Kyung Kim 所属机构:Korea University, Amazon Alexa AI

大语言模型(LLMs)通过扩大模型规模,展现了在各种自然语言处理任务上的卓越性能,而无需针对特定任务进行额外的微调。然而,它们仍然难以处理需要复杂多步推理的挑战性问题,如算术推理、常识推理和多跳问答

最近,链式思维(CoT)提示方法通过在给出最终答案之前生成一系列中间理由,提高了LLMs的推理能力。尽管CoT提示及其变体在各种推理任务上表现出更好的性能,但它们仍然在多跳问题上存在困难,因为CoT生成的理由有时与问题无关,或者存在幻觉现象。另一方面,之前的CoT方法有时会遗漏生成足够的子问题,以获取相关信息,因为它们主要依赖于上下文学习,将原始问题分解为子问题。

为了解决这些问题,作者提出了一种图引导的CoT提示方法,该方法通过图表示/验证步骤,引导LLMs达到正确的答案

2. 介绍

本文的主要研究目的是提高大语言模型(LLMs)在多跳问答(Multi-Hop Question Answering,MHQA)任务上的性能。

深度图学习与大模型LLM(小编):

MHQA是一种需要从多个文本段落中获取相关信息,并进行多步推理,以回答复杂问题的任务。例如,为了回答“Who is the author of the book that won the Pulitzer Prize for Fiction in 2019?”,需要从不同的文本段落中找到2019年普利策小说奖的获奖作品、该作品的作者和该作者的姓名等信息,并将它们联系起来。MHQA是一种具有挑战性的任务,因为它不仅需要对文本进行深入的理解,还需要进行跨文本的推理。

LLLMs已经在各种自然语言处理任务上取得了令人瞩目的成果,如文本分类、命名实体识别、文本生成等。然而,LLMs在MHQA任务上仍然表现不佳,因为它们缺乏有效的推理能力。尽管LLMs可以从大规模的文本数据中学习到丰富的语言知识,但它们往往无法将这些知识应用到具体的问题上,或者无法从多个文本段落中整合相关信息。

为了提高LLMs在MHQA任务上的推理能力,本文采用了一种基于链式思维(CoT)提示的方法。CoT提示是一种利用LLMs的生成能力,通过在给出最终答案之前生成一系列中间理由,来引导LLMs进行多步推理的方法。CoT提示可以帮助LLMs分解复杂的问题,获取和整合相关信息,以及检查和验证推理过程。然而,CoT提示仍然存在一些问题,如生成与问题无关的理由,或者无法生成足够的子问题,以获取所有相关信息。

为了解决这些问题,本文提出了一种图引导的CoT提示方法,该方法通过图表示/验证步骤,引导LLMs达到正确的答案。具体来说,本文的方法包括以下几个步骤:

图表示:利用LLMs构建一个“问题/理由图”,该图是一个有向无环图,其中每个节点是一个问题或一个理由,每条边是一个关系。图表示的目的是将问题和理由的语义结构显式地表示出来,以便于后续的推理。

图验证:利用LLMs对当前的理由节点进行诊断,通过将其与现有的问题/理由图进行比较,来过滤掉无关的理由,并生成后续的问题,以获取更多的相关信息。图验证的目的是检查和纠正当前的推理路径,以避免错误或不完整的推理。

图补充:利用LLMs生成不包含图中提取信息的CoT路径,以表示图抽取中遗漏的上下文信息。图补充的目的是补充和完善当前的推理路径,以提高推理的全面性和鲁棒性。

4. 方法

本文的方法是基于链式思维(CoT)提示的,即利用LLMs的生成能力,通过在给出最终答案之前生成一系列中间理由,来引导LLMs进行多步推理的方法。

本文的方法与之前的CoT提示方法的主要区别在于,本文的方法引入了图表示/验证步骤,以显式地表示和检查问题和理由的语义结构,从而提高推理的有效性和准确性。本文的方法的整体流程如图1所示。

图片

图1分为四个部分,分别是问题图构建、中间问题生成、中间答案生成和理由验证。

问题图构建是指利用大型语言模型从问题中提取知识三元组,并将其表示为一个图结构。

中间问题生成是指根据问题图中的三元组,生成一个与初始问题相关的子问题,以获取回答问题所需的信息。

中间答案生成是指利用大型语言模型回答中间问题,并生成一个作为推理步骤的中间答案。在开放领域的设置中,还可以利用检索增强的方法,根据中间问题作为查询,从外部知识库中检索相关的段落,以辅助中间答案的生成。

理由验证是指将生成的中间答案转换为三元组的形式,并与问题图进行匹配,以验证其是否有效和有用。如果中间答案被拒绝,就返回到中间问题生成的步骤。

这个过程重复进行,直到生成的理由图与问题图匹配,或者达到重复的限制。然后,大型语言模型根据所有的中间答案,生成最终的答案

5.实验

作者的目的是提出一种基于图的推理提示方法,利用知识三元组来指导大型语言模型(LLM)进行复杂的多跳问答任务。作者使用了 Llama-2 作为 LLM,并在三个多跳问答数据集上进行了实验,分别是 2WikiMultihopQA,MuSiQue,和 Bamboogle。作者还探索了在开放领域设置下,使用基于子问题的检索增强生成的效果。

对比方法:作者将他们的方法与以下几种提示方法进行了对比:(1) Chain-of-Thoughts,使用推理步骤来生成答案;

(2) Zero-Plus-Few-Shot CoT,在推理步骤前加入“Let’s think step by step.”;

(3) Self-Consistency,使用多样化的解码温度来采样五条推理路径,并进行多数投票;

(4) Self-ask,使用 Google Search API 来分解问题并检索信息;

(5) No retrieval,不使用任何外部知识;

(6) One retrieval,使用输入问题作为检索查询,并使用检索到的知识来生成答案;

(7) Verify-and-Edit,生成推理步骤后,使用检索到的知识来编辑低置信度的步骤;

(8) FLARE,主动检索知识,并使用检索到的知识来生成答案;

(9) IRCoT,交替地进行检索和生成步骤,并使用检索到的知识来生成答案。

图片表格1展示了在不使用外部知识的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 Chain-of-Thoughts 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 11.4%,8.8%,和 7% 的 EM。

图片表格2展示了在使用外部知识的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 IRCoT 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 0.4%,1%,和 0.8% 的 EM。

图片表格3展示了在使用 Llama-2-13b 模型的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 IRCoT 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 0.6%,1.06%,和 0.6% 的 EM。

图片表格4展示了在使用 Llama-2-13b 模型并使用外部知识的情况下,各种提示方法在三个数据集上的答案级别的精确匹配(EM),令牌级别的 F1,精确度,和召回率。结果显示,作者的方法在所有数据集上都取得了最好的性能,相比于 IRCoT 提示方法,分别在 2WikiMultihopQA,MuSiQue,和 Bamboogle 上提高了 0.6%,2.06%,和 0.6% 的 EM。

本文使用的知识检索方法基于BM25检索器,在维基百科语料库上进行检索,这可能会导致检索到的知识不够相关或不够全面,影响推理的准确性。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多