风控业务背景
逻辑回归(Logistic Regression,LR)是建立信贷金融评分卡的重要模型,其具有形式简单、易于解释、鲁棒性强等优点。然而,很多建模同学并不是很清楚其原理。本文尝试对逻辑回归基础加以分析理解。
目录
Part 1. 从线性回归到逻辑回归
Part 2. 为什么采用sigmoid函数
Part 3. 利用极大似然估计法估计参数
Part 4. 最优化问题求解之梯度下降法
Part 5. 正则项的作用和种类
Part 6. 总结
致谢
版权声明
参考资料
符号定义:
: 样本集,具有
个样例
:标签集,具有
个样例
: 第
个样例的特征向量,具有
维特征
:第
个样例的类别标识,二分类问题
:样本集,维度为
:权重向量,与n维特征一一对应
Part 1. 从线性回归到逻辑回归
线性模型是指对各种属性进行线性加权组合的函数:
这一过程将信息进行整合;不同的权重(weight)反映了自变量对因变量不同的贡献程度 。
线性回归(Liner Regression)具有广泛应用,例如:预测房价、天气等等。
图 1 - 线性回归(Liner Regression)但在实际应用中,很多人会忽略线性回归的几大假设:
- 零均值假设:随机误差项均值为0。
- 同方差假设:随机误差项方差相同。若满足这一特性,称模型具有同方差性
- 无自相关假设:若不满足这一特性,称模型具有自相关性(Autocorrelation)。
- ...
显然,线性回归的输出结果
。那如果要做分类呢?我们就考虑将线性回归的输出与分类任务的真实标签
联系起来,即再找一个映射函数。
我们采用一个
函数(也叫对数几率):
其函数图像如图2所示,直观感受其优美的姿态,对称、平滑,且输出
.
图 2 - sigmoid函数我们尝试把
函数模块拼接到线性回归的输出后面,如图3所示。
图 3 - 线性回归与逻辑回归的关系把图3用公式表达,也就是在
函数内嵌套一个线性回归:
我们再将其变换得到逻辑回归的另一种常见形式:
为什么要这样做呢?这是因为右边就是线性回归,而左边则引入了
(几率) 的概念,即
事件发生概率相对于不发生概率的比值。显然可以得到正负样例的概率表达式:
Part 2. 为什么采用sigmoid函数
至此,你可能会有疑问:为什么这里就直接选择了
函数?
如果只是为了将输出结果从
映射到
,完全可以选择其他函数,比如单位阶跃函数:
若预测值
则判为正例,
则判为负例,
则可任意判别。
你可能会说,这个阶跃函数不可微,也无法像
函数那样输出概率。这就冒出两个问题:
- 为什么这个映射函数一定要求可微?
- 为什么
函数输出值可以代表概率?
首先,我们先分析
函数的基本性质:
- 定义域:
- 值域:
- 函数在定义域内为连续和光滑函数
- 处处可导,导数为
,以下是推导过程:
可以看到,
函数确实具有很多优点,但这仍不是我们选择它的
根本原因。这是因为,我们仍可以找到一些与之类似性质的函数。
探索的脚步继续前进 ...
由于逻辑回归本质上属于线性模型,我们尝试从广义线性模型(Generalized Linear Model,GLM)角度入手解释。前文提到,线性回归存在诸多假设,实际应用中往往无法满足。这就会有以下问题:
的取值范围
与某些场景矛盾。例如,要求
。假设一个线性回归模型预测当温度下降10摄氏度,沙滩上的游客将减少1000人。那么,如果当前20摄氏度时,沙滩上只有50人,按此模型预测,当温度为10摄氏度时,沙滩上便有-950人。这显然不符合常理,因为人数不能为负数。
- 残差
服从正态分布
,且要求方差
是常数。但有时,均值
越大,我们越预测不准确(方差
越大)。
为了解决这些局限性,后人发展了GLM,用以提高线性模型的普适性。
In statistics, the generalized linear model (GLM) is a flexible generalization of ordinary linear regression that allows for response variables that have error distribution models other than a normal distribution. (摘自维基百科)
GLM允许因变量 的分布
并不一定要服从正态分布,而可以服从其它分布。
广义线性模型GLM由三要素组成,即:
- 概率分布(Probability distribution):指因变量
的分布假设,来自指数分布族。
- 线性预测(Linear predictor):自变量的线性组合,即
- 链接函数(Link function):通过均值
来链接前两者,即
图 4 - 广义线性模型(Generalized Linear Model,GLM)首先分析概率分布。对于只有单个参数
的指数分布族的通用形式为:
其中,
和
只是关于自变量
的函数;
和
只是关于未知参数
的函数。不同的线性模型具有不同的分布假设。比如:
- 线性回归假设
的残差
服从正态分布
- 逻辑回归假设
服从伯努利分布(Bernoulli)
接下来,我们尝试:
- 将逻辑回归因变量
变换到式
的形式,确定以上几个函数,验证其属于指数分布族。
- 求解出逻辑回归对应的链接函数。注意,此时我们还没有认可sigmoid函数。⚠️
由于逻辑回归假设
服从伯努利分布(Bernoulli),即:
对比式
指数函数族的通用形式,我们发现:
这说明伯努利分布也是指数分布族(exponential family)的成员。按GLM的第二要素定义:
我们再计算
的反函数,就得到了
函数:
按类似方法,我们可以推导出各分布函数及其链接函数,如图5所示。
图 5 - 常用分布及其正则链接函数(摘自维基百科)从广义线性模型角度,我们确实推导出
函数与逻辑回归之间密不可分的联系。但是,sigmoid函数输出值为什么可以代表概率?
上文提到,逻辑回归中因变量
服从伯努利分布,而
伯努利分布的参数 的含义就是样例属于 的概率。 Part 3. 利用极大似然估计法估计参数
在模型参数估计问题上,两大主流学派持有不同观点:
- 频率主义学派(Frequentist):认为参数虽然未知,但却是客观存在的固定值。因此,可通过优化似然函数等准则估计参数值。
- 贝叶斯学派(Bayesian):认为参数是未观察到的随机变量,其本身也可有分布。因此,可假定参数服从一个先验分布,再基于观察到的数据来计算参数的后验分布。
极大似然估计法(Maximum Likelihood Estimation,MLE)属于频率主义学派方法,其蕴含的朴素思想在于:
我们已经确定了一个模型种类
,但还不清楚其真实参数
。既然目前观察样本已经出现,那么就
由果溯因,估计出一组参数
,使得出现目前结果的可能性
最大(优化目标),如图6所示。
由于一组样本中的所有样例是一个整体,因此我们将各样例的概率相乘(排列组合中的乘法原理)来得到我们的目标函数。
图 6 - 极大似然估计(Maximum Likelihood Estimation)我们把第
个样例的类别属于
的概率记为:
.
现在,我们有观测样本
,那么似然函数为:
其中,样例
具有标签
。右边为什么要写成这种形式呢?主要原因在于这是
伯努利分布的常见形式。按正负样例分析,可以帮助你理解这个形式:
时,
时,
为便于求解,将连乘
转为
,我们对等式
两边同取对数
,写成对数似然函数:
我们的优化目标是:
认真考虑后,我们发现并没有其他约束项。(事实上,这里将蕴含正则项的思想)
接下来,我们将进入最优化理论的求解范畴。
Part 4. 最优化问题求解之梯度下降法
在最优化问题求解上,我们一般可分为两种:
- 解析解:通过严格的公式推导,所求得的解。
例如,一元二次方程
,其求解公式是:
- 数值解:采用某种计算方法,如数值逼近、插值等方法,得到的解。如图7所示。
图 7 - 基于数值计算求解方程当然,能得到解析解自然是最好的,但在很多场景下我们无法精确计算,只能利用计算机模拟来近似计算,也就是数值解。
在式
这个问题中,我们很难通过解析求解,因此可采用数值计算方法。例如,以经典的梯度下降法(Gradient Descent)来介绍求解过程。
如图8所示,我们可以直观理解为,如果随着最陡的方向下山,那就会更快到达山谷。
图 8 - 梯度下降法那这个"陡"在数学上是如何衡量的呢?答案就是导数,导数方向上,函数值变化最快。
对于多元函数
,我们也可以计算它们的“导数”,也就是偏导数。
偏导数是指先固定其他维度当作常数,只计算某一维度上的导数。如图9所示,对于所处位置点
:
- 在
轴方向上,固定
,即
,则导数为
.
- 在
轴方向上,固定
,即
,则导数为
.
图 9 - 二元函数的偏导数图9所示二元函数的梯度可以定义为:
下山的方向已经找到了,但还有一个问题是,我们的步子(step)迈多大?
如图10所示,步长过大或过小都会产生一些问题。因此,在不同阶段能够自动调整步长,可以更好地保证收敛。
图 10 - 不同步长的影响为简便起见,我们暂且忽略这个问题,假设步长
是一个常数,即在任意时候,我们都按梯度方向迈等长的步子。
回到式
这个问题中:
我们不断重复这一过程:达到某个点
后,继续计算下一个点
:
那么,这个迭代过程何时才能停止呢?一般满足以下任意条件即可:
- 达到迭代次数上限:
- 学习曲线变化很小:
小于阈值。
Part 5. 正则项的作用和种类
在机器学习模型训练(也就是参数估计)时,我们常会遇到过拟合和欠拟合现象,如图11所示。那我们有没有办法来解决过拟合呢?
图 11 - 学习过拟合和欠拟合的理解对于参数:
,我们理解其服从某个分布。从贝叶斯角度解释,正则项是
引入先验信息(初始化)来约束参数的取值分布。
正则化一般会采用以下2种范数:
范数:
范数:
图 12 - L1正则和L2正则的约束效果从图12可见,
范数帮助更容易得到
稀疏解,而
范数帮助更容易得到
平滑解。
接下来分析下引入正则项后,目标损失函数的变化情况,也就是前文所说的约束项。
1. LASSO回归
此时加入
正则,其假设参数
服从
零均值拉普拉斯分布,即:
此时,式
的似然函数变为:
取对数
并转换后,我们得到:
2. Ridge 回归
此时加入
正则,其假设参数
服从
零均值正态分布,即:
此时,式
的似然函数变为:
取对数
并转换后,我们得到:
Part 6. 总结
本文的思维导图为:
下一篇,我们将尝试探索:样本权重对逻辑回归的影响,包括权重系数、模型性能等。
致谢
感谢参考资料的作者带给我的启发。本文尚有理解不当之处,欢迎批评指正。
版权声明
欢迎转载分享,请在文章中注明作者和原文链接,感谢您对知识的尊重和对本文的肯定。
原文作者:求是汪在路上(知乎ID)
原文链接:https://zhuanlan.zhihu.com/p/111260930/
⚠️著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处,侵权转载将追究相关责任。
参考资料
CSDN-专业IT技术社区-登录blog.csdn.net如何通俗地理解概率论中的「极大似然估计法」?www.zhihu.com
机器学习中的logistic regression的sigmoid函数如何解释?为啥要用它?www.zhihu.com
CSDN-专业IT技术社区-登录blog.csdn.net什么是梯度下降法?www.zhihu.com
https://encyclopedia.thefreedictionary.com/Generalized+linear+modelencyclopedia.thefreedictionary.com阿泽:【机器学习】逻辑回归(非常详细)zhuanlan.zhihu.com
关于作者:
在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作,目前致力于将实践经验固化分享,量化成长轨迹。欢迎交流