江辉老师分享“自然语言处理的通用深度学习方法”

6月5号&＃xff0c;由阿里巴巴iDST邀请到了江辉老师&＃xff0c;在北京阿里巴巴绿地中心阿里同学们做了一场A New General Deep Learning Approach for Natural Language Processing的讲座。

分享概要

如今在NLP领域各种CNN&＃xff0c;RNN及其变种网络层出不穷&＃xff0c;但是它们在复杂度&＃xff0c;模型训练等方面都有不少问题。在这样的现状下&＃xff0c;能否有一种更简单的机制代替这样的复杂网络&＃xff0c;同时又取得与其相当甚至更好的效果&＃xff0c;这成为了很多人的诉求。

江辉老师直接切入了NLP的痛点之一——变长编码(variable-length encoding)。即NLP需要处理的往往不是定长(fixed-size)的数据&＃xff0c;而是变长的短语&＃xff0c;句子&＃xff0c;段落甚至篇章。也是因为变长编码的原因&＃xff0c;才使得NLP领域大量引入CNN和RNN模型。

技术核心

于是江辉老师及其团队&＃xff0c;提出了FOFE-net架构&＃xff0c;即FOFE(Fixed-size Ordinally-Forgetting Encoding) &＃43; DNN&＃xff0c;来解决变长编码问题&＃xff0c;同时降低模型复杂度&＃xff0c;提高训练速度甚至整体效果

FOFE是一种简单精妙的rule-base编码方式。上图中&＃xff0c;左侧1-of-K是传统的one-hot编码&＃xff0c;右侧是FOFE编码的计算过程的例子&＃xff0c;下方是计算公式&＃xff0c;公式中&＃xff0c;z是整个编码&＃xff0c;t表达不同的时刻&＃xff0c;e是当前时刻的词的one-hot向量。运算当前t时刻的FOFE等于上个时刻t-1的FOFE编码乘上一个打折系数(遗忘系数)alpha&＃xff0c;然后加上t时刻词的one-hot&＃xff0c;通俗的说就是&＃xff0c;在one-hot的基础上利用了数值的大小表明了词的位置信息

FOFE是简单的&＃xff0c;同时是精妙的&＃xff0c;江辉老师也给出了FOFE的理论证明

解决了变长编码到定长编码的问题&＃xff0c;那么后续只需要使用DNN(多层)就能完成很多任务&＃xff0c;此次分享中&＃xff0c;江辉老师展示了NLP的多个任务上使用FOFE-net和其他方法的结果对比

(红色部分为重点介绍的任务)

实验结果

由于文章篇幅有限&＃xff0c;本文仅详细讲述Word Embedding任务&＃xff0c;其他任务仅简单描述方法和结果

用了FOFE编码后Word Embedding变得非常简单&＃xff0c;甚至并不需要深度学习相关的做法就能达到很好的性能。如图上所示&＃xff0c;词表的长度为K&＃xff0c;对于每个词w&＃xff0c;我们使用该词左右两侧的若干词做FOFE编码&＃xff0c;如果该词出现多次&＃xff0c;那么left FOFE和right FOFE则是所有出现词w的上下文FOFE编码的平均(该做法只是策略之一)&＃xff0c;得到词到词context FOFE编码的矩阵后(K * 2K&＃xff0c;2K是因为左右两个FOFE长度)&＃xff0c;使用SVD等sparse to dense的手段就能得到Word Embedding

这种简单的方式得到的效果轻松超越了word2vec&＃xff0c;GloVe等方法

除此外江辉老师还介绍了NLP中不少任务上FOFE-net的做法和表现(下面只列举部分)&＃xff1a;

语言模型。使用FOFE方式编码词w历史的词&＃xff0c;然后经过DNN预测下一个词的概率分布。在Google-1B的数据上&＃xff0c;表现出惊人效果&＃xff08;超越绝大多数方法&＃xff0c;并与谷歌的最好算法相当&＃xff09;&＃xff0c;并且训练时间上大大降低&＃xff08;google使用32GPU&＃xff0c;FOFE使用1GPU&＃xff09;。
命名实体识别。假定某个词序列S&＃61;wn~wn&＃43;m为实体&＃xff0c;使用FOFE编码S左右两侧的context&＃xff0c;作为特征进入DNN&＃xff0c;输出判断该词序列S是否是实体&＃xff0c;是何种实体。在CoNLL03任务上&＃xff0c;得到不错的效果。
信息抽取。在2015 KBP-EDL&＃xff0c;2016 KBP-EDL上表现不俗。

还有不少任务&＃xff0c;如指代消解&＃xff0c;文本分类&＃xff0c;实体链接&＃xff0c;句法分析等都在分享中有分析和对比&＃xff0c;由于篇幅原因不能一一列举

听众收获

江辉老师的分享非常精彩&＃xff0c;虽然只有一个小时左右&＃xff0c;干货多多&＃xff0c;让人意犹未尽。
QA环节也有热烈的讨论&＃xff1a;

问&＃xff1a;FOFE编码在处理长句子时&＃xff0c;是否会因为alpha不断打折而导致浮点精度问题丢失了一些词的信息&＃xff1f;答&＃xff1a;可以采用双向的FOFE编码减缓浮点精度问题
问&＃xff1a;FOFE编码是否能再进入RNN&＃xff0c;CNN然后效果是否会进一步提升&＃xff1f;答&＃xff1a;这个工作有学生做过&＃xff0c;训练速度下降了&＃xff0c;但是效果并没有好

个人思考

如有不对&＃xff0c;欢迎评论区拍砖

问&＃xff1a;如何在使用FOFE编码的同时融入更多其他信息&＃xff0c;如词的标签&＃xff0c;词性等&＃xff0c;因为FOFE编码之后已经是整个sentence粒度&＃xff0c;而词的标签还停留在word粒度&＃xff1f;答&＃xff1a;使用相同的编码方式编码额外的信息&＃xff0c;如FOFE词性vector&＃xff0c;FOFE词标签vector等&＃xff1b;
问&＃xff1a; 为什么FOFE-net会得到更优的性能&＃xff1f;答&＃xff1a;猜测。FOFE极大简化了网络复杂度&＃xff0c;使得网络被训练得非常好&＃xff0c;换句话说CNN和RNN这样得复杂网络在现有的BP算法下&＃xff0c;很有可能没有被训得很好。这样的简化网络结构换取效果提升的思路貌似是个不错的方向

参考资料

The Fixed-Size Ordinally-Forgetting Encoding Method for Neural Network Language Models