A Hybrid Framework for Text Modeling with Convolutional RNN

A Hybrid Framework for Text Modeling with Convolutional RNN

总体

本文主要提出了一种结合RNN和CNN的混合结构的模型,能够集合RNN和CNN各自的长处。在该混合结构基础上,文章又提出了sentence classification model(就是文本分类)和基于attention的answer selection model(基于文档的问答)。

本文的主要贡献:

  1. 提出了conv-RNN的混合结构
  2. 在此基础上进行扩展,提出了answer selection和sentence classification两个问题上更好的模型
  3. 在比较有名的数据集上进行了测试,取得了较好的效果。

模型

conv-rnn的基础结构

  • word embedding层
    • 将词变为词向量
  • 双向RNN层
    • 第二层是双向RNN层,$r_t$是$r_t^f$ 和 $r_t^b$ 进行concat;$h_s^b$ 和 $h_s^f$是两个方向的语义编码,在answer selection model中的attention机制会用到
  • CNN层
    • 使用n个$2d 1$的卷积核,将上一层的输出提取为 $n s$ 的feature map
  • pooling层
    • 对每个卷积核卷积后的feature map进行max-pooling,得到最终的输出 $R^n$

总结:其实就是很简单的rnn再过cnn的网络结构

Sentence Classification Model

结构非常简单,在conv-rnn基础上,将双向RNN的前向和后向隐藏层输出和最终输出concat到一起,后面再接上一层softmax的分类层即可。难以想象是一篇去年的KDD的文章

Answer Selection Model

几个创新点

  1. 输入加入了overlap的feature,问题中每个词和答案中的每个词相似度是多少,构成一维特征
  2. 没有使用传统的余弦相似度,使用的是Geometric mean of Euclidean and Sigmoid Dot (GESD)
    • $X_sim = \frac{1}{1+||x-y||} \times \frac{1}{1+exp(-\gamma(xy^T + c))}$
  3. 引入attention机制,将question双向RNN的hidden state计算attention向量$A_q$,让$A_q$参与到answer部分GPU的计算中。

总结

上面的网络其实组合起来也不算复杂,但是却取得了很好的效果。其中answer selection model中创新点较多,有很多值得参考的地方,比如overlap的feature,GESD等等。