一.Logistic回归概述:
假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。
二,Logistic的优缺点:
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
适用数据类型:数值型和标称型数据
三.Logistic里面的梯度上升法伪代码:
梯度上升法的伪代码:
所有回归系数初始化为1
重复R次:
****计算整个数据集的梯度
****适用alpha*gradient更新回归系数的向量
返回回归系数
随机梯度上升法的伪代码(一种改进方法是一次使用一个样本点来更新回归系数):
所有回归系数初始化为1
对数据集中每个样本
****计算该样本的梯度
****使用alpha*gradient更新回归系数值
返回回归系数值
注意:这种随机上升梯度法会由于一些不能正确分类的数据而导致回归系数在迭代的过程中出现局部波动现象,为了减少这种现象的发生,可以通过随机选取样本来更新回归系数。
四.利用到的一些公式:
可以参见我转载的一篇梯度下降法:http://blog.csdn.net/u013289254/article/details/63685512。