1.1 神经元 + 激活函数模型
在本章,这里的激活函数是sigmoid函数,在其他场合,可以使用其他激活函数。
1.2 神经元的多输入的几何意义
2.1 sigmoid函数的数学表达式
2.2 sigmoid函数的几何图形
sigmoid是单调变化:变化后的输出序列的顺序关系与输入序列的顺序关系一致sigmoid是压缩变换:变化后的空间被压缩到了【0,1】区间其导函数有导数为0的值,用于loss函数时,就是loss函数最小值处。
2.3 sigmoid函数的几何意义
(1)输入值X的作用
是【-无穷, +无穷数】 值空间的任意值,它代表了输入数据的一个特征值。
(2)神经元WX+B的作用
对输入数据进行线性变换:即放大或缩小(由w决定),或平移(有b决定)线性变化后,输出数据Ui=WXi + Bi依然落在【-无穷, +无穷】数值空间中线性变化得到的输出序列Ui,并没有改变输入数据序列Xi的顺序关系,即单调性关系。
(3)Sigmoid函数作用
数据(-无穷, +无穷) 的数值空间压缩成了【0,1】的数值空间,因此是一种压缩变换。压缩后得到的输出序列Yi,并没有改变输入序列Ui的顺序关系,即单调性关系。
(4)总体变化的作用
输入序列Xi经过神经元线性变化和sigmoid的压缩变换,由【-无穷, +无穷】到了【0,1】空间。变化前后,输出序列与输入序列具有一致的顺序(排序)关系。
2.4 sigmod实现二元逻辑分类的思想
备注:
二元逻辑分类的样本标签是数值1或0,而不是任意值。
1:表示是指定的分类类型0:表示不是指定的分类类型线性神经的输出Z的数值空间为【-无穷,+无穷】,经过sigmoid变换后,转换成了【0,1】区间。由于sigmoid函数是指数变换,当Y接近1时,Z不需要接近+无穷。当Y接近0时,Z不需要接近-无穷。sigmoid函数的输出,反应了对输入数据的预测值越接近于该样本数据的标签编码值1,表示与样本标签越接近,相似度越高,这是sigmoid函数一个及其重要的特性,因此在二分类,甚至多分类中得到广泛应用的一个重要的原因。
2.5 sigmoid激活函数的缺点
(1)激活函数计算量大,反向传播求误差梯度时,求导涉及除法。
需要大量的指数运算和除法运算,前向传播的计算量偏大。
反向传播求导时,该函数本身就包含除法,相比与加法和乘法,运算量偏大。
(2)反向传播时,很容易就会出现梯度消失的情况,从而无法完成深层网络的训练。
这是有sigmoid函数本身的几何特性所决定的,如下图所示。
sigmoid函数在(0,0.5)点为中心,在0附件,无论是上升到1附近的速度或下降为0的速度非常快,在0出,斜率最大,然后快速的下降,很快斜率就下降为0,也就是说,其梯度很快下降为0,导致在训练深层网络时,容易出现梯度消失的情形,无法进行进一步的训练。这是sigmoid函数一个非常大的缺点。
————————————————
感谢大家的支持和喜欢,小编会每天分享更多Python学习的干货知识给大家,所以大家别忘了关注小编哦。
版权声明:本文为CSDN博主「文火冰糖的硅基工坊」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。