Dawn's Blogs

分享技术 记录成长

0%

关系抽取论文 Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

论文

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

发布年份:2016

会议:ACL

作者:Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi, Bingchen Li, Hongwei Hao, Bo Xu

机构:Institute of Automation, Chinese Academy of Sciences

motivation:

  • CNN 结构不适用于捕捉到长距离的特征。
  • 其他的关系分类方法依赖于 NLP 工具(NER 等)或者 WordNet。

数据集:SemEval 2010 task 8 dataset,8000 个训练用例和 2717 个测试用例,随机挑选了 800 个句子作为验证集。

模型结构

模型的结构如下所示,包括几个部分:

  • Embedding Layer:将 token 转为 embedding。
  • LSTM Layer:使用 BiLSTM 用于提取到 high level features。
  • Attention Layer:产生一个权重向量,这个权重乘以 BiLSTM 的输出(这就是 sentence-level feature)得到 Output Layer 的输入。
  • Output Layer:进行关系分类。

1666092673030

LSTM Layer

双向 LSTM 的输出拼接起来得到 hi:

1666093202793

Attention Layer

Attention 输出的结果 r 的运算方法如下:

1666093276776

其中,所有 BiLSTM 的输出 hi 拼接起来得到矩阵 H,α 相当于权重向量。

最终, 得到的 sentence-level 的feature(用于分类的输入)h*,如下所示:

1666093389116

Output Layer

Output Layer 用于关系分类,在这篇文章中使用 softmax 进行关系分类:

1666093586649

实验结论

与其他方法的对吧如下:

1666094215596