这两种网络模型搭建思想上有异曲同工之妙,本来想找个时间对这两种模型进行一个详细的总结。参考了很多博客,发现许多大牛都已经总结的非常对位。这里我就不进行详细总结了。下面列出了我认为几个总结比较好的链接,方便以后查阅。
在论文中设计到大一些概念需要在这里给出一下。
1.“梯度消失”:指的是即当梯度(小于1.0)在被反向传播到前面的层时,重复的相乘可能会使梯度变得无限小。
2. “梯度爆炸”:指的是即当梯度(大于1.0)在被反向传播到前面的层时,重复的相乘可能会使梯度变得非常大甚至无限大导致溢出。
3. “plain Network”:这个名词来自ResNet一文中,它其实就是普通网络,如下图所示,不加任何Res连接和Dense连接。残差网络就是在plain Network网络基础上加shorcut(跳远连接)
ResNet
2015年,作者He-Kaiming, Ren-Shaoqing, Sun-Jian
论文:《Deep Residual Learning for Image Recognition》
论文链接:https://arxiv.org/pdf/1512.03385.pdf
参考链接:
- https://baijiahao.baidu.com/s?id=1598536455758606033&wfr=spider&for=pc
- https://www.jianshu.com/p/11f1a979b384
ResNeXt
2016年,作者:Saining Xie, Ross Girshick, Kaiming He
论文:《Aggregated Residual Transformations for Deep Neural Networks》
论文连接:http://arxiv.org/abs/1611.05431
代码连接:
https://github.com/facebookresearch/ResNeXt(pytorch)
https://github.com/facebookresearch/ResNeXt(作者:lua语言)
参考连接:
https://zhuanlan.zhihu.com/p/68392975
DenseNet
论文:《Densely Connected Convolutional Networks》
论文链接:https://arxiv.org/pdf/1608.06993.pdf
代码的github链接:https://github.com/liuzhuang13/DenseNet
参考链接:
https://www.jianshu.com/p/8a117f639eef