博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记 | Does Structure Matter? Encoding Documents for Machine Reading Comprehension
阅读量:4289 次
发布时间:2019-05-27

本文共 3285 字,大约阅读时间需要 10 分钟。

在这里插入图片描述


作者:迪

单位:燕山大学


论文来源:ACL2021

前言

  机器阅读理解是一项具有挑战性的任务,尤其是对于查询具有深层次和上下文相关性非常强的的文档。基于Transformer的方法在这项任务中表现优异;然而,它们中的大多数方法仍然将文档视为一个扁平的序列。这项工作提出了一种新的基于Transformer的方法,按照树切片的方式读取文档。它包含两个模块,分别是识别更相关的文本段落和提取最佳的答案跨度,这两个模块不仅是联合训练的,而且在推理时也是联合使用的。评估结果表明,所提出的方法在来自不同领域的两个数据集上优于几种竞争的基线方法。

概述

  在这项工作中,我们探索了利用文档结构来实现文档的细粒度机器阅读理解。我们提出了一种基于Transformer的方法,将文档作为树切片来读取;它联合学习段落和跨度的相关性,然后执行级联推理以找到最佳答案跨度。该工作受到人们如何基于标题和字幕等结构线索通读文档,然后专注于相关部分来搜索答案的启发。利用在线文档中自然获得的结构信息来识别树切片。每个切片对应于从根节点到较低级别子节点的路径上的所有节点,如下图右侧所示。因此,该方法能够捕获推理的基本结构信息,这些信息可能在传统的滑动窗口或文本段之外。与Longformer (Beltagy等人,2020)或ETC (Ainslie等人,2020)等方法相比,我们的方法可以直接应用于许多现有的预训练模型,并且具有较小的GPU内存占用。

在这里插入图片描述

主要贡献

  1. 作者提出了一种基于Transformer的方法,可以将文档读为树。它同时识别段落的相关性,并通过带有级联推理的训练模型找到答案跨度。
  2. 该方法可以利用许多Web文档中看到的共同结构。它允许Transformer模型以更加聚焦深层次的内容读取;因此,它可用于以有效的处理长文档。
  3. 该方法优于两种MRC任务的几种竞争基线方法,其中包括来自不同领域的文档。

模型

  采用基于Transformer的文档树切片编码器,具有联合学习和级联推理的能力。该方法受到阅读期间人类行为模式的影响,这专注于较少的部分,并在寻找答案时倾向于更相关的部件。这种方法还可以克服常用的Transformer架构允许的固定长度输入的限制。更重要的是,这使我们能够在编码期间始终包含重要的上下文信息。

树切片

  要获取网页的树形表示,我们将不同级别的HTML标题标记作为分层结构的主要指标,如上图中的父子节点。将数据集定义为 ( Q , D , s , e ) (Q,D,s,e) (Q,D,s,e),其中 Q Q Q是问题, D D D是文档, s , e s,e s,e分别表示答案跨度的开始位置与结束位置。

  假设一个模型不考虑文档结构信息,直接将 D D D当做一个序列送入Transformer的编码器中。对于长文档,Transformer方法采用滑动窗口机制,将 D D D且分为 m m m段具有重叠片段的 D 1 , … D m D_1,…D_m D1,Dm,并且 ( Q , D , s , e ) (Q,D,s,e) (Q,D,s,e)被转换成 m m m段训练实例 ( C i , s i , e i ) (C_i,s_i,e_i) (Ci,si,ei),其中 C i = ( [ C L S ] , Q 1 , … , Q ∣ Q ∣ , [ S E P ] , D i , 1 , … D i , D i , [ S E P ] ) C_i=([CLS],Q_1,…,Q_{|Q|,[SEP],D_{i,1},…D_{i,D_i}},[SEP]) Ci=([CLS],Q1,,QQ,[SEP],Di,1,Di,Di,[SEP]),其中, s i , e i s_i,e_i si,ei映射到切段 C i C_i Ci上。如果 C i C_i Ci没有包含目标答案,那么 s i , e i s_i,e_i si,ei则设置为[CLS]的索引。

  在提出的编码文档的方法中,将结构化信息与其内容一起考虑。给定一篇文档 D D D,设置树结构中节点的数量为 k k k。我们首先将 ( Q , D , s , e ) (Q,D,s,e) (Q,D,s,e)转换为 k k k个样例 ( Q , A i , P i , s i , e i ) (Q,A_i,P_i,s_i,e_i) (Q,Ai,Pi,si,ei),其中 P i P_i Pi是叶子节点, s i , e i s_i,e_i si,ei是对应 P i P_i Pi的映射索引,并且 A i A_i Ai代表 P i P_i Pi在文档 D D D中的祖先链。每个 ( Q , A i , P i ) (Q,A_i,P_i) (Q,Ai,Pi)之后被Transformer编码成序列 C i = ( [ C L S ] , Q 1 , … Q ∣ Q ∣ , [ S E P ] , A i , 1 , … , A i , ∣ A i ∣ , [ S E P ] , P i , 1 , … , P i , ∣ P i ∣ , [ S E P ] ) C_i=([CLS],Q_1,…Q_{|Q|},[SEP],A_{i,1},…,A_{i,|A_i|},[SEP],P_{i,1},…,P_{i,|P_i|},[SEP]) Ci=([CLS],Q1,QQ,[SEP],Ai,1,,Ai,Ai,[SEP],Pi,1,,Pi,Pi,[SEP])

带级联推理的联合模型

  与滑动窗口的情况相比,使用树切片方法,每个文档中有许多段落来选择答案跨度。为了让模型从文档中选择更相关的部分,我们训练一个联合模型来同时学习识别段落的相关性和找到答案跨度。执行级联推理,首先找到最相关的段落,然后根据联合模型的分数从中找到最佳答案区间,如下图所示。

在这里插入图片描述

联合模型

  编码表示 C C C可以被用来执行两个任务,每个任务由一个单独的模块处理:①池化层和匹配层(都是线性层)预测一个段落 P P P包含这个答案;②跨度选择(另一个线性层)从 P P P中识别答案跨度。每个训练实例都被转换为 ( C , s , e , g ) (C,s,e,g) (C,s,e,g),其中 g ∈ 0 , 1 g\in{0,1} g0,1表示 P P P中是否包含答案。我们将损失定义为。

在这里插入图片描述

  其中 L C E L_{CE} LCE是交叉熵损失函数, θ \theta θ表示模型参数,并且每个 f f f是由Transformer编码器的最后一层表示之上的相应线性层获得的分数。 f h i t f_{hit} fhit通过池化层和匹配层,并且 f s t a r t f_{start} fstart f e n d f_{end} fend是区间选择层。

级联推理

  在模型的两个模块被联合训练之后,我们以波束搜索方式进行级联推理。首先,从单个文档的树切片对应的所有实例中,我们通过 f h i t ( g = 1 , C ; θ ) f_{hit}(g=1,C;\theta) fhit(g=1,C;θ)进行排序选择前n个示例;然后,从这些实例中,为每个候选文档分配来自模型的两个模块的分数;最后,我们选择得分最高的文档跨度 ( C , s , e ) (C,s,e) (C,s,e)作为答案。

实验结果

  对于评价模型指标,使用精确匹配分数(EM)和令牌级别F1分数。下表分别给出了D2DStruct和NQStruct测试集的评估结果以及训练时间。所有的数字都是平均标准差的形式,它来自三次不同随机种子的运行。

在这里插入图片描述

结论

  本文引入了一种新的基于Transformer的方法,该方法受机器阅读理解文档树结构的启发,具有联合学习和级联推理功能。它在来自多个领域的两个数据集上优于几个竞争基线。经研究表明,所提出的模型能有效的编码更长的文档与深层上下文的任务。

转载地址:http://uemgi.baihongyu.com/

你可能感兴趣的文章
python正则表达式模块re
查看>>
python爬虫总结
查看>>
python网络编程基础--http
查看>>
python 构造http请求对象-Request对象
查看>>
解决Ubuntu16.04更新源时显示“暂时不能解析域名”问题
查看>>
Ubuntu16.04运行清空文件命令时提示权限不够解决方法
查看>>
shell脚本编写笔记
查看>>
Ubuntu16.04实现定时免密远程拷贝脚本
查看>>
Ubuntu 16.04安装Docker
查看>>
Docker报错:Temporary failure in name resolution&Proxy Authentication Required
查看>>
mySQL常用操作及基础知识
查看>>
Ubuntu16.04安装python3.6
查看>>
linux安装Anaconda
查看>>
Ubunu16.04安装CPU版本Tensorflow
查看>>
conda常用命令和基础知识整理
查看>>
ImportError: libgfortran.so.4: cannot open shared object file: No such file or directory
查看>>
Django搭建网站笔记
查看>>
不抱怨的世界
查看>>
运动减肥篇
查看>>
自己测到的Buu IP
查看>>