Dawn's Blogs

分享技术 记录成长

0%

关系抽取论文 Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

年份:2022

From:ACL

作者:Qingyu Tan, Ruidan He etc.

机构:DAMO Academy, Alibaba Group

GitHub:https://github.com/tonytan48/KD-DocRE

工作:

  • 为了改进了双跳关系的推理,提出使用轴向注意力模块作为特征提取器。这个模块能够关注位于双跳逻辑路径中的元素,并捕获关系三元组之间的相互依赖关系。
  • 其次,提出了自适应焦点损失(Adaptive Focal Loss)来解决不平衡的关系类型分布问题,提出的损失函数使得长尾类对总体损失的贡献更大。
  • 最后,使用知识蒸馏来克服注释数据和远程监督数据之间的差异。具体来说,首先用少量的人类注释数据来训练一个教师模型。然后,将使用教师模型对大量的远程监督数据进行预测。生成的预测被用作预训练学生模型的软标签。最后,对预先训练好的学生模型进行了进一步的微调。

现有工作的缺陷:

  1. 现有方法聚焦于从预训练语言模型获取上下文信息,但是忽略了实体对之间的交互信息。
  2. 现有方法没有明确的解决DocRE数据集中关系类别数量不平衡的问题,仅关注于动态阈值以平衡正负样本数量不平衡的问题。
  3. 几乎没有工作讨论在DocRE数据集上应用远程监督方法。

模型结构

image-20241002183958840

提出的模型包含三个部分:

  1. 表示学习(Representation Learning):首先通过预先训练的语言模型提取每个实体对的上下文表示。轴向注意模块将进一步增强实体对的表示,该模块将对实体对之间的相互依赖信息进行编码。
  2. 自适应Focal损失(Adaptive Focal Loss):使用一个前馈神经网络分类器,用于计算损失,应用AFL损失以更好的应对长尾分布。
  3. 知识蒸馏:使用知识蒸馏客服人工标注数据和远程数据之间的差异。具体来说,就是用带注释的数据训练一个教师模型,并将其输出作为软标签。然后,我们基于软标签和远程标签对学生模型进行预训练。预先训练好的学生模型将再次使用带注释的数据进行微调。

Representation Learning

实体表示

利用预训练语言模型对文档进行编码,同时用特殊token标记实体位置(星号)。实体表示为,多个实体提及的sumexp池化操作:

image-20241002192707135

后用多个实体提及在最后一层的多头注意力权重的平均值,作为上下文信息增强:

image-20241002192807553

最终,实体表示为两部分,分别是实体嵌入和上下文多头注意力机制增强:

image-20241002192855565

实体对表示(轴向注意力)

实体对通过分组的线性函数进行表示:

image-20241002193001011

引入轴向注意力机制,来引入两跳的实体对信息,最终实体对表示为:

image-20241002193326491

Adaptive Focus Loss

通过线性层来进行关系类型的预测:

image-20241002193633475

引入AFL来解决长尾分布问题,损失函数分为两个部分。第一部分是正例的,第二部分是关于负例的。其中,正例的概率分布计算方式:

image-20241002193834274

负例的概率分布计算方式:

image-20241002193856005

损失函数被定义为:

image-20241002194006213

其中r为超参数,AFL损失是被设计成更多地关注低置信度的类别。如果一个正例关系类别的概率分布较低,则相关类的损失贡献将较高,从而可以对长尾类进行更好的优化。

利用远程监督进行知识蒸馏

略,这部分没有参考价值。

实验

image-20241002192356297