【原】ACL 2020 | RikiNet: 阅读维基百科页面进行自然问答（彩蛋！作者分享了PPT）

学术头条 2020-11-27

展开全文

论文标题：RikiNet: Reading Wikipedia Pages for Natural Question Answering

（点击 https://www./pub/5eabf34391e011664ffd2872?conf=acl2020，可以看到作者分享的PPT）
作者：Dayiheng Liu，Yeyun Gong，Jie Fu，Yu Yan，Jiusheng Chen，Daxin Jiang，Jiancheng Lv，Nan Duan.
机构：四川大学，微软研究院，蒙特利尔理工大学

收录会议：ACL 2020

阅读长文档进行开放域问题回答是自然语言理解领域的一个挑战。针对 Google 的 Natural Question 任务，本文提出了一个新的模型称为 RikiNet（意为 Reading Wikipedia 的神经网络模型），阅读维基百科的整个页面进行自然问答。RikiNet 的单模型首次在 Natural Question 上双指标超过单人类，其集成模型提交时在 Natural Question Leaderboard 取得了双指标第一名。

Google Natural Question任务

随着机器阅读理解模型和问答模型的发展，越来越多的模型性能在多个数据集上超过了人类。Google Natural Question（NQ）于 19 年被提出，为开放域问答提出了新的挑战。如图 1 所示，该任务给定一个用户在 Google 搜索引擎中输入的自然问题，以及与该问题最匹配的维基百科页面，要求模型预测出回答该问题的长答案（即该页面中的某一个段落）和短答案（即某一个 answer span），以及是否存在长答案或短答案。

图1 Google Natural Question的数据样例

左上角为问句，左下角为相关的维基百科页面，右上角为该问句的长答案，右下角为该问句的短答案

RikiNet 模型结构

如图 2 所示，RikiNet 模型由两部分组成：

（1）动态的段落双重注意力阅读器（Dynamic Paragraph Dual-attention Reader, DPDA reader），通过利用一系列互补的注意力机制和预训练语言模型对文档和问句进行编码，以得到上下文相关的问句表示，token-level 和 paragraph-level 的文档表示。
（2）多层级的级联答案预测器（Multi-level Cascaded Answer Predictor，MCAP），利用 DPDR 输出的多层级表示，以级联的结构依次预测长答案、短答案和答案类型。

图2 RikiNet模型结构

具体来说，DPDA reader 首先使用预训练语言模型获得问句和文档的上下文表示，再通过多层 DPDA Block 对问句和文档进一步建模。每一个 DPDA Block 分别对问句进行自注意力机制建模，对文档进行段落动态自注意力机制建模。其中，段落动态自注意力机制由两个自注意力掩码矩阵叠加组成：a. 段落掩码，使得当前 token 只与相同段落的 token 执行注意力交互，以生成段落级别的表示。b.动态掩码，由掩码预测器动态产生掩码矩阵，使自注意力机制更关注于重要的信息。在得到词级别的表示后，我们将位于相同段落的 token 通过池化操作得到相应的段落表示，并通过池化操作得到问句表示、文档表示。

上述多层级的表示将通过 MCAP 以级联的方式依次预测长答案，短答案起始位置，结束位置和答案类型，该级联的方式能够充分利用不同答案的预测信息，以完成 NQ 任务的多个目标。

实验结果

我们将基于 BERT 和 RoBERTa 的 RikiNet 模型与之前的模型进行比较，包括 IBM AI，Google AI 在 NQ 任务上提出的模型。如表 1 所示，我们的单模型首次在长答案（LA）和短答案（SA）的 F1 分数上超过单人类，并且集成模型在提交时取得了 NQ leaderboard 双指标第一名。

表1 NQ数据集模型结果

我们进一步对模型进行 ablation study。首先在保留 BERT 的情况下对 DPDA reader 进行分析和实验，包括去除相应的注意力机制、block 层数、动态注意力词数，结果如表 2 上所示。同时我们也对 MCAP 进行了进一步的消融实验，并比较了不同的预测层和级联顺序，结果如表 2 下所示。