论文
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
发布年份:2020
会议:ACL
作者:Zhepei Wei, Jianlin Su, Yue Wang, Yuan Tian, Yi Chang
机构:School of Artificial Intelligence, Jilin University
贡献:
- 以一种全新的视角去看待关系抽取任务,解决了 overlapping 问题。
数据集:NYT(定义了 24 种关系类型) 和 WebNLG(定义了 246 种关系类型)
github:[GitHub - weizhepei/CasRel: A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. Accepted by ACL 2020.](https://github.c om/weizhepei/CasRel)
关系抽取中的 overlapping 问题,包括:
- EntityPairOverlap(EPO):两个实体之间有多个关系。
- SingleEntityOverlap(SEO):多个关系三元组共同享一个实体。
为了解决 overlapping 问题,论文以一种新的视角去看待关系抽取任务(避开了关系分类),即将关系抽取分为两步,对于一个关系三元组 (subject, relation, object)
:
- 首先,识别出一个句子中所有可能的主体(subject)。
- 然后,对于每一个主体,应用一种特殊的标记方法(relation-specific object tagging)去同时识别所有可能的关系(relation)和与之相关的客体(object)。
模型结构
Cascade Decoder
得到 BERT 输出的hidden state 后,将关系抽取分为两个子步骤:
- 首先,检测一个句子中的所有 subject。
- 然后,针对每一个检测出的 subject,检查所有的关系看是否有与之相关的 object。
Subject Tagger
应用两个相同的二分类器,去分别检测 subject 的开始位置和结束位置。下面的公式中 p 代表了开始 / 结束位置的可能性,当可能性大于某个特定的阈值时,被置为1。
使用了一种 nearest start-end pair match principle 去检测所有 subject 的开始和结束位置,就是对于一个开始位置而言,在其之后的最近的结束位置,这段 span 之间就是一个实体,即为 subject。
Relation-specific Object Taggers
与 Subject Tagger 类似,Relation-specific Object Taggers 同样利用两个而分类器来检测对应关系中的 object,由于有很多不同的关系,所以有 r(r 为关系的类型数量)个这样的分类器来检测,每一种关系下,object 的开始和结束位置。
其中,v 包含了 subject 的信息,是 subject 开始和结束位置之间的所有 token 向量表示的平均。
实验结果
与其他模型的对比:
对于 Normal、EPO 和 SEO,不同模型的表现,CASREL 对于 overlapping 的表现是最为稳定的,所以可以很好的解决 overlapping 问题。
对于一个句子中关系三元组数量对 F1 的影响探究中,可以看到随着 N(句子中关系三元组数量)的上升,其他模型的表现迅速下降,但是 CASREL 的表现比较平稳,说明论文提出的模型适用于复杂的场景。