HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications

会议：ACL

年份：2021

作者：Qiao Cheng, Juntao Liu, Xiaoye Qu, Jin Zhao, Jiaqing Liang

机构：School of Computer Science, Fudan University, China

motivation：近期的关系抽取模型在公共数据集上取得了非常不错的效果，但是它们很难应用在实际应用中。这种在公共数据集与实际应用之间的表现差距，其根本原因在于实际应用在本质上有更多困难的情况（hard case）。所以论文提出了 Hard Case Relation Extraction Dataset（HacRED），使得关系抽取模型在实际应用中更具有鲁棒性。

HacRED 数据集中有 65225 个关系三元组，标注来自 9231 个文件，有非常多不同的 hard case。预定义了 26 种关系类型，以及 8 种实体类型。

HacRED 是最大的中文文档级关系抽取数据集之一，数据集的质量非常高。

GitHub：https://github.com/qiaojiim/HacRED

在 NTY 以及 WebNLG 等公共关系抽取数据集中，对于一个关系三元组有明显的关键词提示。但是在实际情况中，关系是没有明显的关键词的，这种情况就是 hard case。

由于关系抽取应用在不同的场景中存在很大差异，构建针对特定目标的数据集是关系抽取的一个流行趋势。关系抽取数据集的相关研究如下：

SemEval-2010 Task 8 和 ACE05：人工标注，关系类型和实体类型的数据都非常有限。
TACRED：通过众包得到的一个大规模的数据集。
DocRED：为了文档级关系抽取的研究。
FewRE 和 FewRE 2.0：为了满足 few-shot 关系抽取的场景。
RELX：是一种跨语言的关系抽取数据集。

HacRED 的目标是促进关系抽取模型从复杂的上下文中提取信息。

Hard Cases：

论文探究了什么样的情况下属于 hard cases：

文本长度很长。
当头实体和尾实体的距离过长时，关系抽取的性能会下降，这种情况在句子级关系抽取中尤其明显。
当需要推理（Reasoning）来提取文本中存在的隐含关系时。
当文本中包含多个具有相同实体类型的实体时，比如在父母/孩子这种关系的提取中，若文本中存在很多个 Person 类型的实体，会导致较高的关系抽取错误率。
关系抽取模型很难识别在上下文中同时出现的、语义接近的关系。
长尾分布的关系类型使得关系抽取模型，很难在这种长尾分布的关系类型上学习到语义模式。
关系抽取模型在具有大量关系三元组的实例上，总是性能很差。
当有重叠问题时，一些模型不能很好的处理 Overlap 问题。

Dawn's Blogs

关系抽取论文 HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications

Hard Cases：