Packed Levitated Marker for Entity and Relation Extraction

年份：2022

会议：ACL

作者：Deming Ye, YanKai Lin, Peng Li, Maosong Sun

机构：Tsinghua University, Beijing, China

motivation：现有的工作忽视了 span（以及 span pair）之间的相互关系。因此，论文提出了 Packed Levitated Marker（PL-Marker）的 span 表示法。

GitHub：https://github.com/thunlp/PL-Marker

目前有三种 span representation 方法：

T-Concat：连接 span 边界的 representation（start 和 end tokens）。这种方式停留在 token level 获取有关信息，也忽略了边界 token 之间的关系。
Solid Marker：在 span 前后显式的插入两个实体标记，以在输入文本中突出显示 span。这种方法难以处理多对 object-subject 的情况，因为它无法在同一句子中区分不同的 object 和 subject，也不能处理 overlapping spans 的情况。
Levitated Marker：首先设置一对悬浮标记与跨度的边界标记共享相同的位置，然后通过定向注意机制将一对标记绑定。具体来说，就是一对标记在注意力 mask 矩阵中彼此可见，但对文本标记和其他标记对不可见。

模型结构

Neighborhood-oriented Packing for Span

NER 部分采用悬浮标签的策略，将所有的可能的实体 span 的悬浮标记对都放在句子最后面。但是有个问题：因为要遍历句子中所有可能的 span，而 PLM 能处理的句子长度有限。因此作者提出了 Packing 的策略，在 Packing 的时候，考虑到为了更好的分清楚 span 的边界（更重要的是区分同一个词为开头的 span 的差别），会将 span 相近的放在一起。

具体步骤如下：

首先以 start mark 的位置作为第一个关键字，end mark 的位置作为第二个关键字，对悬浮标签进行排序。
接着，将悬浮标签分为 K 组，使得相邻的标签在同一组中。K 组悬浮标签拼接到句子 tokens 之后，生成 K 个训练实例。
将训练实例送入 PLM，对于每一对悬浮标签，分别将它的起始标签和结束标签的 representation 连接在一起，作为 span representation。

在 NER 预测的时候，将上述步骤获取到 span 表征与 T-Concat 方法抽取的 span 表征（就是文本中 start 和 end 位置的 representation）合并（连接？相加？）起来去预测 entity type。

Subject-oriented Packing for Span Pair

在 RE 任务中，采用了 solid marker 和 levitated marker 混合的方式，用 solid marker 标记 subject span，用 levitated marker 标记候选 object。

具体步骤如下：

对于句子 subject span 在其前后分别插入标记（[S] 和 [/S]），再将其候选 object span 采用悬浮标记的方式添加在句子后面。
将训练实例放入 PLM 中，将 subject span 前后的 solid marker 表征以及其中一对 object span 悬浮标记表征拼接在一起，形成这一对 span pair 的表征。

为了建模实体类型与关系类型之间的关系，论文还增加了预测 object 类型的辅助 loss 函数。

为了增加一些补充信息，论文新增了从 object 到 subject 的反向关系的预测，从而实现了双向关系的预测，其实就是实现了一个Object-oriented packing strategy。没有反向关系预测，模型反而造成了 0.9%-1.1% 的性能下降。

通过实验发现，相比于 PURE，使用 typed marker 反而对性能造成了负面影响。个人感觉，实体类型信息肯定是会对关系分类起到启发性作用的，这里可以改进。

Dawn's Blogs

关系抽取论文 Packed Levitated Marker for Entity and Relation Extraction

模型结构

Neighborhood-oriented Packing for Span

Subject-oriented Packing for Span Pair

实验结果

NER

RE