一.深度学习的发展历程
- 深度学习的起源阶段
- 深度学习的发展阶段
- 深度学习的爆发阶段
- 自然语言处理
- 语音识别与合成
- 图像领域
一.深度学习的发展历程
作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的,而是经历了一段漫长的发展史。接下来我们简单了解一下深度学习的发展历程。
- 深度学习的起源阶段
1949年,加拿大著名心理学家唐纳德·赫布在《行为的组织》中提出了一种基于无监督学习的规则——海布学习规则(Hebb Rule)[2]。海布规则模仿人类认知世界的过程建立一种“网络模型”,该网络模型针对训练集进行大量的训练并提取训练集的统计特征,然后按照样本的相似程度进行分类,把相互之间联系密切的样本分为一类,这样就把样本分成了若干类。海布学习规则与“条件反射”机理一致,为以后的神经网络学习算法奠定了基础,具有重大的历史意义。
20世纪50年代末,在MP模型和海布学习规则的研究基础上,美国科学家罗森布拉特发现了一种类似于人类学习过程的学习算法——感知机学习[3]。并于1958年,正式提出了由两层神经元组成的神经网络,称之为“感知器”。感知器本质上是一种线性模型,可以对输入的训练集数据进行二分类,且能够在训练集中自动更新权值。感知器的提出吸引了大量科学家对人工神经网络研究的兴趣,对神经网络的发展具有里程碑式的意义。
但随着研究的深入,人们发现了感知器模型所存在的不足,它甚至无法解决最简单的线性不可分问题(例如异或问题)。由于这一不足以及没有及时推广感知器到多层神经网络中,在20世纪70年代,人工神经网络进入了第一个寒冬期,人工神经网络的发展也受到了很大的阻碍甚至质疑。
- 深度学习的发展阶段
直到1986年,深度学习之父杰弗里·辛顿提出了一种适用于多层感知器的反向传播算法——BP算法[3]。BP算法在传统神经网络正向传播的基础上,增加了误差的反向传播过程。反向传播过程不断地调整神经元之间的权值和阈值,直到输出的误差达到减小到允许的范围之内,或达到预先设定的训练次数为止。BP算法解决了非线性分类问题,让人工神经网络再次引起了人们广泛的关注。
但是由于八十年代计算机的硬件水平有限,运算能力跟不上,以及当神经网络的层数增加时,BP算法会出现“梯度消失”的问题等等。这使得BP算法的发展受到了很大的限制。再加上90年代中期,以SVM为代表的其它浅层机器学习算法被提出,并在分类、回归问题上均取得了很好的效果,其原理相较于神经网络模型具有更好的可解释性,所以人工神经网络的发展再次进入了瓶颈期。
- 深度学习的爆发阶段
2012年,在著名的ImageNet图像识别大赛中,杰弗里·辛顿领导的小组采用深度学习模型AlexNet一举夺冠[5]。AlexNet采用ReLU激活函数,极大程度上上解决了梯度消失问题,并采用GPU极大的提高了模型的运算速度。同年,由斯坦福大学著名的吴恩达教授和世界顶尖计算机专家Jeff Dean共同主导的深度神经网络——DNN技术在图像识别领域取得了惊人的成绩,在ImageNet评测中成功的把错误率从26%降低到了15%。深度学习技术在世界大赛的脱颖而出,又进一步吸引了学术界和工业界对于深度学习领域的关注。
随着深度学习技术的不断进步以及计算机硬件算力的不断提升,2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率几乎没有差别。这样的结果也再一次证明了深度学习技术在图像识别方面的一骑绝尘。
2016年,谷歌公司基于深度强化学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手李世石,深度学习的热度一时无两。后来,AlphaGo又接连和众多世界级围棋高手过招,均取得了完胜。这也证明了在围棋界,基于深度学习技术的机器人几乎已经超越了人类。
2017年,基于深度强化学习技术的AlphaGo升级版AlphaGo Zero横空出世。其采用“从零开始”、“无师自通”的学习模式,以100:0的比分轻而易举打败了之前的AlphaGo。除了围棋,它还精通国际象棋等其它棋类游戏,可以说是真正的棋类“天才”。此外在这一年,深度学习相关技术也在医疗、金融、艺术、无人驾驶等多个领域均取得了显著的成果。所以,也有专家把2017年看作是深度学习甚至是人工智能发展最为突飞猛进的一年。
深度学习发展到今天已经越来越趋于成熟,尤其是图像方面。无论是科研还是应用,大家也越来越理性,而不是像早些时候,把深度学习视为“万能的”,盲目的去跟风。当然,这一领域也还有许多问题需要解决,还有很多有趣、有挑战性的方向可以研究。
图1 深度学习发展简史
二.深度学习的应用作为机器学习发展到一定阶段的产物,近年来深度学习技术之所以能引起社会各界广泛的关注,是因为不光在学术界,同时也在工业界取得了重大突破和广泛的应用。其中应用最广的几个研究领域分别是自然语言处理、语音识别和图像处理。接下来,我们分别来看一下这三个领域的发展现状:
- 自然语言处理
从算法上来看,词向量(word vector)作为深度学习算法在自然语言领域的先驱,有着及其广泛的应用场景,在机器翻译、情感分析等方面均取得了不错的效果。其基本思想是把人类语言中的词尽可能完整地转换成计算机可以理解的稠密向量,同时要保证向量的维度在可控的范围之内,在Bahdanau等人利用LSTM[8]模型结合一些自定义的语料,解决了传统模型的Out of dictionary word问题之后,更使得基于深度学习的自然语言处理较于传统方法有明显的优势。目前,基于深度学习的自然语言处理在文本分类、机器翻译、智能问答、推荐系统以及聊天机器人等方向都有着极为广泛的应用。
- 语音识别与合成
事实上,在深度学习算法还未普及之前的很长一段时间,语音识别系统大多采用高斯混合模型(GMM)这一机器学习浅层模型完成数据的量化和建模。由于该模型可以精确地量化训练集并对数据有较好的区分度,所以长期在语音识别领域占主导地位。直到2011年,微软公司推出了基于深度学习的语音识别系统,模拟人类大脑分层对数据特征进行提取,使得样本特征之间的联系更加密切,完美的克服了GMM[9]模型处理高维数据方面的不足。直到今天,基于深度神经网络的模型仍然广泛应用在语音相关的各个领域中。
- 图像领域
三.参考文献
[1] A Logical Calculus of the Ideas Immanent in Nervous Activity . Warren S. McCulloch. Walter Pitts.1943
[2] Organization of Behavior: A Neuropsychological Theory . Donald Hebb . 1949
[3] Learning Internal Representations by Error Propagation . Rumelhart.1986
[4] Reducing the dimensionality of data with neural networks . Hinton.2006
[5]Imagenet classification with deep convolutional neural networks. Hinton.2012
[6] ImageNet Classification with Deep Convolutional Networks. Yann LeCun .1998
[7] Supervised Sequence Labelling with Recurrent Neural Networks. Alex Graves .2008
[8] Learning to forget: continual prediction with LSTM. FA Gers , J Schmidhuber , F Cummins . 2014
[9] A finite sample correction for the variance of linear efficient two-step GMM estimators. F Windmeijer.2000