HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications
会议:ACL
年份:2021
作者:Qiao Cheng, Juntao Liu, Xiaoye Qu, Jin Zhao, Jiaqing Liang
机构:School of Computer Science, Fudan University, China
motivation:近期的关系抽取模型在公共数据集上取得了非常不错的效果,但是它们很难应用在实际应用中。这种在公共数据集与实际应用之间的表现差距,其根本原因在于实际应用在本质上有更多困难的情况(hard case)。所以论文提出了 Hard Case Relation Extraction Dataset(HacRED),使得关系抽取模型在实际应用中更具有鲁棒性。
- HacRED 数据集中有 65225 个关系三元组,标注来自 9231 个文件,有非常多不同的 hard case。预定义了 26 种关系类型,以及 8 种实体类型。
- HacRED 是最大的中文文档级关系抽取数据集之一,数据集的质量非常高。
在 NTY 以及 WebNLG 等公共关系抽取数据集中,对于一个关系三元组有明显的关键词提示。但是在实际情况中,关系是没有明显的关键词的,这种情况就是 hard case。
由于关系抽取应用在不同的场景中存在很大差异,构建针对特定目标的数据集是关系抽取的一个流行趋势。关系抽取数据集的相关研究如下:
- SemEval-2010 Task 8 和 ACE05:人工标注,关系类型和实体类型的数据都非常有限。
- TACRED:通过众包得到的一个大规模的数据集。
- DocRED:为了文档级关系抽取的研究。
- FewRE 和 FewRE 2.0:为了满足 few-shot 关系抽取的场景。
- RELX:是一种跨语言的关系抽取数据集。
HacRED 的目标是促进关系抽取模型从复杂的上下文中提取信息。
Hard Cases:
论文探究了什么样的情况下属于 hard cases:
- 文本长度很长。
- 当头实体和尾实体的距离过长时,关系抽取的性能会下降,这种情况在句子级关系抽取中尤其明显。
- 当需要推理(Reasoning)来提取文本中存在的隐含关系时。
- 当文本中包含多个具有相同实体类型的实体时,比如在父母/孩子这种关系的提取中,若文本中存在很多个 Person 类型的实体,会导致较高的关系抽取错误率。
- 关系抽取模型很难识别在上下文中同时出现的、语义接近的关系。
- 长尾分布的关系类型使得关系抽取模型,很难在这种长尾分布的关系类型上学习到语义模式。
- 关系抽取模型在具有大量关系三元组的实例上,总是性能很差。
- 当有重叠问题时,一些模型不能很好的处理 Overlap 问题。