Dawn's Blogs

分享技术 记录成长

0%

关系抽取论文 TDEER: An Efficient Translating Decoding Schema for Joint Extraction of Entities and Relations

TDEER: An Efficient Translating Decoding Schema for Joint Extraction of Entities and Relations

来源:EMNLP 2021

作者:Xianming Li, Xiaotian Luo, Chenghao Dong, Daihuan Yang etc.

机构:Ant Group, Shanghai

贡献:提出了实体关系联合抽取模型 TDEER(Translating Decoding Schema for Joint Extraction of Entities and Relations)。

  • 提出的翻译解码模式,将关系视作 subject 到 object 的翻译操作。TDEER 将关系三元组解码为 subject + relation -> objects。
  • TDEER 可以很自然地处理重叠的三重问题。TDEER 遍历所有的 subject 和 relation 来识别出 object,因此可以考虑到所有的三元组,包括重叠或者不重叠的三元组。
  • 为了增强模型的鲁棒性,引入了负样本来缓解不同阶段的误差积累。

GitHub:https://github.com/4AI/TDEER

模型结构

TDEER 是一个三阶段模型:

  • 第一阶段,TDEER 使用一个基于 span 的实体标记模型来提取所有的 subject 和 object。
  • 第二阶段,TDEER 采用多标签分类策略来检测所有的相关关系。
  • 第三阶段,TDEER 迭代成对的 subject 和 relation,通过所提出的翻译解码模式来识别各自的 object。

image-20230316175932979

Entity Tagging Model

利用两个二分类模型,分别标记 start 和 end 位置。

image-20230316180338974

这一步总共用到四个二分类,分别标注 subject 和 object 的 start 和 end 位置。

Relation Detector

一个句子中可能有多个关系,所以采用多标签分类。输入为 CLS 或者最好一个输出 LO(last output)。

image-20230316180723036

Translating Decoding Schema

TDEER 选择关系 embedding 进入一个全连接层,作为关系表示:

image-20230316194530160

选择 subject 开始和结束位置 token embedding 的平均作为 subject 表示。接着通过加法将 relation 和 subject 链接起来:

image-20230316194643689

最后,利用注意力机制获取 object 在第 i 个位置上的可能性:

image-20230316194717610

image-20230316194724506

Negative Sample Strategy

在 TDEER 中,翻译解码器可以从上游组件中接收错误的实体关系。因此,论文引入了一种负样本策略来检测和减轻上游成分的误差。

对于每个句子,在训练阶段将正确的 subject/relation 替换为其他不正确的 subject/relation,从而产生不正确的三元组作为负样本,负样本在解码阶段每一个位置上输出为 0。

这个策略使 TDEER 能够在解码阶段,可以处理 subject 和 relation 的噪声输入。

实验

image-20230316200535144