IPRE: a Dataset for Inter-Personal Relationship Extraction

年份：2019

作者：Haitao Wang, Zhengqiu He, Jin Ma, Wenliang Chen, Min Zhang

机构：School of Computer Science and Technology, Soochow University, China

贡献：提出了用于人际关系抽取的数据集 Inter-Personal Relationship Extraction，IPRE，这是第一个用于提取人际关系的数据集。

IPRE 有 41000 个标注的句子，包含 34 个关系类别（其中 9000 条句子是人工进行标注的）。

GitHub：https://github.com/SUDA-HLT/IPRE

IPRE Dataset

论文首先通过远程监督的方法进行标注，然后再利用人工在测试集和验证集上进行标注（训练集占比 70，测试集 20，验证集 10）。

同一对人物实体被划分到同一个 bag 中，最终共标注了超过 41000 个句子和 4214 个 bags。

下面是数据集的统计数据：

图 1 进一步给出了每个 bag 中所包含的句子数的分布直方图。虽然有些 bags 中只有一个句子，但大多数 bags 里的句子数在 2 到 15 个之间，这是一个非常合理的分布。
图 2 显示了句子长度的分布情况。为了尽可能保持句子的质量，我们在文本对齐部分的过程中将句子的长度限制在 60。从图中可以看出，句子的长度大多超过15。
图 3 中可以看出，在 IPRE 数据集中，大多数句子中两个实体之间的距离在 3-20 个单词之间，这是一个可以反映语义关系的合理距离。以往的许多研究表明，同一句子中两个实体之间的距离越近，句子越有可能反映实体对的语义关系。

Dawn's Blogs

关系抽取论文 IPRE: a Dataset for Inter-Personal Relationship Extraction

IPRE Dataset