TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking

会议：COLING

年份：2020

作者：Yucheng Wang, Bowen Yu, Yueyang Zhang, Tingwen Liu, Hongsong Zhu, Limin Sun

机构：Institute of Information Engineering, Chinese Academy of Sciences

贡献：

提出了一种一阶段的联合抽取方法，可以解决 overlapping 问题（也可以解决嵌套实体的问题）和 exposure bias 问题。将联合抽取问题转化为 token pair 的链接问题。

数据集：NYT 和 WebNLG

github： https://github.com/131250208/TPlinker-joint-extraction

目前处理 EntityPairOverlap（EPO）和SingleEntityOverlap（SEO）问题的模型可以分为两类：

decoder-based（基于解码器的）：采用 encoder-decoder 架构，decoder 每次提取一个关系三元组或者一个词。
decomposition-based（基于分解的）：首先提取出可能的候选 subject，然后为每个 subject 提取出对应的 object 和关系。

这些方法都有一个相同的问题：exposure bias，原指在 RNN 中的一种偏差，在训练时接受的标签是真实的值，但是在测试时却接受自己前一个单元的输出作为本单元的输入，这两者的不一致会导致误差累积。

exposure bias，暴露偏差：

在decoder-based 的方法中，在训练时，ground truth token 被用作上下文，而在预测时，整个序列是由所产生的模型自行生成的，因此，由模型生成的之前的 token 被作为上下文输入。（解码器需要一个递归译码过程）

在 decomposition-based 的方法中，在训练时使用 gold subject entity 作为输入去提取特定的 object 和关系；而在预测时，subject 由模型自己给出。

论文将联合抽取任务转化成了一种 token pair 的链接任务，对于两个位置 p1 和 p2，以及一个给定的关系 r，TPLinker 回答三个问题：

p1 和 p2 是同一个实体的开始位置和结束位置吗？
p1 和 p2 是两个具有关系 r 的实体的开始位置吗？
p1 和 p2 是两个具有关系 r 的实体的结束位置吗？

设计了一个 handshaking tagging scheme，为每个关系标注三个 token link matrices（这三个矩阵用于解码不同的标记结果，用来解决 overlapping 问题），以回答上面的三个问题。TPLinker 不包含任何相互依赖的提取步骤，所以可以避免 exposure bias。

模型结构

模型的结构如下，可以划分为两个部分：

下方绿色的部分是 Token Pair Representation
上方橘色部分是 Handshaking Tagger

Handshaking Tagging Scheme

首先说明 handshaking 标注方法。

Tagging

如下图所示，给定一个句子，枚举了所有可能的 token pair，并且使用矩阵来标记 token links。links 有三个种类：

entity head to entity tail（EH-to-ET）
subject head to object head（SH-to-OH）
subject tail to object tail（ST-to-OT）

对于 EH-to-ET 而言，一个实体的尾部一定在头部之后，所以矩阵的下三角区域全部为 0，可以直接删除矩阵的下三角区域只保留上三角区域。对于 SH-to-OH 和 ST-to-OT 而言，object 的位置是可能在 subject 之前的，所以将下三角区域的1 映射到上三角区域中，并且将 1 变为 2 以表示这是 object 指向 subject。在实际操作中，将每个矩阵的上三角部分展开成一个一维向量。

这个方法可以解决 SEO 问题和实体嵌套问题，但是还不能解决 EPO 问题，为了解决 EPO 问题，为每一种关系类型都标注两个矩阵（SH-to-OH 和 ST-to-OT）。注意，EH-to-ET 是被所有关系所共享的，因为这个矩阵只考虑了所有的实体而没有考虑特定的关系。所以，联合关系抽取任务被分解为 2N+1 个序列标记子任务，其中 N 表示预定义关系类型的数量。每一个序列标注子任务的序列长度为 1+2+...+n = (n^2+n)/2，n 是输入句子的长度。

Decoding

解码过程如下：

首先，从 EH-to-ET 序列中提取所有的 entity span，并且用一个字典 D 将每一个头部位置映射到从这个头部位置开始的响应实体。
然后，对于每一种关系：
- 首先从 ST-to-OT 序列中解码出（subject 的尾部位置，object 的尾部位置）这样的元组，将元组添加到集合 E 中。
- 接着从 SH-to-OH 序列中解码出（subject 的头部位置，object 的头部位置）这样的元组，在 D 中查询所有的以头部位置开始的所有可能的实体。
- 遍历所有的 subject-object pair，以检查它们的尾部位置是否在 E 中。如果是，则提取一个新的三元组并添加到结果集合 T 中。