Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

年份：2022

From：ACL

作者：Qingyu Tan, Ruidan He etc.

机构：DAMO Academy, Alibaba Group

GitHub：https://github.com/tonytan48/KD-DocRE

工作：

为了改进了双跳关系的推理，提出使用轴向注意力模块作为特征提取器。这个模块能够关注位于双跳逻辑路径中的元素，并捕获关系三元组之间的相互依赖关系。

其次，提出了自适应焦点损失（Adaptive Focal Loss）来解决不平衡的关系类型分布问题，提出的损失函数使得长尾类对总体损失的贡献更大。

最后，使用知识蒸馏来克服注释数据和远程监督数据之间的差异。具体来说，首先用少量的人类注释数据来训练一个教师模型。然后，将使用教师模型对大量的远程监督数据进行预测。生成的预测被用作预训练学生模型的软标签。最后，对预先训练好的学生模型进行了进一步的微调。

现有工作的缺陷：

现有方法聚焦于从预训练语言模型获取上下文信息，但是忽略了实体对之间的交互信息。
现有方法没有明确的解决DocRE数据集中关系类别数量不平衡的问题，仅关注于动态阈值以平衡正负样本数量不平衡的问题。
几乎没有工作讨论在DocRE数据集上应用远程监督方法。

模型结构

提出的模型包含三个部分：

表示学习（Representation Learning）：首先通过预先训练的语言模型提取每个实体对的上下文表示。轴向注意模块将进一步增强实体对的表示，该模块将对实体对之间的相互依赖信息进行编码。
自适应Focal损失（Adaptive Focal Loss）：使用一个前馈神经网络分类器，用于计算损失，应用AFL损失以更好的应对长尾分布。
知识蒸馏：使用知识蒸馏客服人工标注数据和远程数据之间的差异。具体来说，就是用带注释的数据训练一个教师模型，并将其输出作为软标签。然后，我们基于软标签和远程标签对学生模型进行预训练。预先训练好的学生模型将再次使用带注释的数据进行微调。