Coreference Resolution

Coreference Resolution，即代指消解，识别出代指的相同的东西。

需要识别出代指的一段文字（如他、它的 XX 等），称为 mention。代指消解的结果就是将同一个代指的 mention，放入同一个 cluster 中。

步骤

识别出 mention：需要一个二分类器，输入一个 span，判别是否是一个 mention。若有 N 个 token 的句子，需要运行 N(N-1)/2 次。

识别哪些 mention 需要放在同一个 cluster 中：同样需要一个二分类器，输入为两个 mention，输出判断是否属于同一个 cluster。若有 K 个 mention，需要运行 K(K-1)/2 次。

或者可以直接输入两个 span 到二分类器中，判断这两个 span 是否代指同一个实体。若有 N 个 token，则有 K=N(N-1)/2 个 span，需要运行 K(K-1)/2 次。

训练二分类器

一个通常的用于 Coreference Resolution 二分类器如下：

将句子中的所有 token 输入预训练模型中，得到 embedding。
将 embedding span 输入 Span Feature Extraction，得到两个向量（每一个 Span Feature Extraction 将 embedding 汇聚成一个 embedding）。
判断两个向量是否是 mention、是否属于同一个 cluster，最终输出一个分数。

对于 Span Feature Extraction，结构如下。将 embedding span 进行 Attention，得到一个 Attention 向量，再把 span 中起始 embedding 和最后一个 embedding 与 Attention 向量相加，得到 Span Feature Extraction 的输出向量。

上述是有监督模型，那么是否可以训练一个无监督模型呢？

答案是可以的，把 mention Mask 起来，这样模型的输出就是相关的代指实体。

Dawn's Blogs

NLP学习笔记 (4) Coreference Resolution

Coreference Resolution

步骤

训练二分类器