评分算法_评分卡基础—逻辑回归算法理解

作者：君哥哥 | 来源：互联网 | 2023-09-15 17:59

风控业务背景逻辑回归（LogisticRegression，LR）是建立信贷金融评分卡的重要模型，其具有形式简单、易于解释、

风控业务背景

逻辑回归&＃xff08;Logistic Regression&＃xff0c;LR&＃xff09;是建立信贷金融评分卡的重要模型&＃xff0c;其具有形式简单、易于解释、鲁棒性强等优点。然而&＃xff0c;很多建模同学并不是很清楚其原理。本文尝试对逻辑回归基础加以分析理解。

目录
Part 1. 从线性回归到逻辑回归
Part 2. 为什么采用sigmoid函数
Part 3. 利用极大似然估计法估计参数
Part 4. 最优化问题求解之梯度下降法
Part 5. 正则项的作用和种类
Part 6. 总结
致谢
版权声明
参考资料

符号定义&＃xff1a;

: 样本集&＃xff0c;具有
个样例
&＃xff1a;标签集&＃xff0c;具有
个样例
: 第
个样例的特征向量&＃xff0c;具有
维特征
&＃xff1a;第
个样例的类别标识&＃xff0c;二分类问题
&＃xff1a;样本集&＃xff0c;维度为
&＃xff1a;权重向量&＃xff0c;与n维特征一一对应

Part 1. 从线性回归到逻辑回归

线性模型是指对各种属性进行线性加权组合的函数&＃xff1a;

这一过程将信息进行整合&＃xff1b;不同的权重(weight)反映了自变量对因变量不同的贡献程度。

线性回归&＃xff08;Liner Regression&＃xff09;具有广泛应用&＃xff0c;例如&＃xff1a;预测房价、天气等等。

图 1 - 线性回归&＃xff08;Liner Regression&＃xff09;

但在实际应用中&＃xff0c;很多人会忽略线性回归的几大假设&＃xff1a;

零均值假设&＃xff1a;随机误差项均值为0。
同方差假设&＃xff1a;随机误差项方差相同。若满足这一特性&＃xff0c;称模型具有同方差性
无自相关假设&＃xff1a;若不满足这一特性&＃xff0c;称模型具有自相关性&＃xff08;Autocorrelation&＃xff09;。
...

显然&＃xff0c;线性回归的输出结果

。那如果要做分类呢&＃xff1f;我们就考虑将线性回归的输出与分类任务的真实标签

联系起来&＃xff0c;即再找一个映射函数。

我们采用一个

函数&＃xff08;也叫对数几率&＃xff09;&＃xff1a;

其函数图像如图2所示&＃xff0c;直观感受其优美的姿态&＃xff0c;对称、平滑&＃xff0c;且输出

图 2 - sigmoid函数

我们尝试把

函数模块拼接到线性回归的输出后面&＃xff0c;如图3所示。

图 3 - 线性回归与逻辑回归的关系

把图3用公式表达&＃xff0c;也就是在

函数内嵌套一个线性回归&＃xff1a;

我们再将其变换得到逻辑回归的另一种常见形式&＃xff1a;

为什么要这样做呢&＃xff1f;这是因为右边就是线性回归&＃xff0c;而左边则引入了

(几率) 的概念&＃xff0c;即

事件发生概率相对于不发生概率的比值。

显然可以得到正负样例的概率表达式&＃xff1a;

Part 2. 为什么采用sigmoid函数

至此&＃xff0c;你可能会有疑问&＃xff1a;为什么这里就直接选择了

函数&＃xff1f;

如果只是为了将输出结果从

映射到

&＃xff0c;完全可以选择其他函数&＃xff0c;比如单位阶跃函数&＃xff1a;

若预测值

则判为正例&＃xff0c;

则判为负例&＃xff0c;

则可任意判别。

你可能会说&＃xff0c;这个阶跃函数不可微&＃xff0c;也无法像

函数那样输出概率。这就冒出两个问题&＃xff1a;

为什么这个映射函数一定要求可微&＃xff1f;
为什么
函数输出值可以代表概率&＃xff1f;

首先&＃xff0c;我们先分析

函数的基本性质&＃xff1a;

定义域&＃xff1a;
值域&＃xff1a;
函数在定义域内为连续和光滑函数
处处可导&＃xff0c;导数为
&＃xff0c;以下是推导过程&＃xff1a;

可以看到&＃xff0c;

函数确实具有很多优点&＃xff0c;但这仍不是我们选择它的

根本原因。这是因为&＃xff0c;我们仍可以找到一些与之类似性质的函数。

探索的脚步继续前进 ...

由于逻辑回归本质上属于线性模型&＃xff0c;我们尝试从广义线性模型&＃xff08;Generalized Linear Model&＃xff0c;GLM&＃xff09;角度入手解释。前文提到&＃xff0c;线性回归存在诸多假设&＃xff0c;实际应用中往往无法满足。这就会有以下问题&＃xff1a;

的取值范围
与某些场景矛盾。例如&＃xff0c;要求
。假设一个线性回归模型预测当温度下降10摄氏度&＃xff0c;沙滩上的游客将减少1000人。那么&＃xff0c;如果当前20摄氏度时&＃xff0c;沙滩上只有50人&＃xff0c;按此模型预测&＃xff0c;当温度为10摄氏度时&＃xff0c;沙滩上便有-950人。这显然不符合常理&＃xff0c;因为人数不能为负数。
残差
服从正态分布
&＃xff0c;且要求方差
是常数。但有时&＃xff0c;均值
越大&＃xff0c;我们越预测不准确&＃xff08;方差
越大&＃xff09;。

为了解决这些局限性&＃xff0c;后人发展了GLM&＃xff0c;用以提高线性模型的普适性。

In statistics, the generalized linear model (GLM) is a flexible generalization of ordinary linear regression that allows for response variables that have error distribution models other than a normal distribution. &＃xff08;摘自维基百科&＃xff09;
GLM允许因变量
的分布
并不一定要服从正态分布&＃xff0c;而可以服从其它分布。

广义线性模型GLM由三要素组成&＃xff0c;即&＃xff1a;

概率分布&＃xff08;Probability distribution&＃xff09;&＃xff1a;指因变量
的分布假设&＃xff0c;来自指数分布族。
线性预测&＃xff08;Linear predictor&＃xff09;&＃xff1a;自变量的线性组合&＃xff0c;即
链接函数&＃xff08;Link function&＃xff09;&＃xff1a;通过均值
来链接前两者&＃xff0c;即

图 4 - 广义线性模型&＃xff08;Generalized Linear Model&＃xff0c;GLM&＃xff09;

首先分析概率分布。对于只有单个参数

的指数分布族的通用形式为&＃xff1a;

其中&＃xff0c;

和

只是关于自变量

的函数&＃xff1b;

和

只是关于未知参数

的函数。不同的线性模型具有不同的分布假设。比如&＃xff1a;

线性回归假设
的残差
服从正态分布
逻辑回归假设
服从伯努利分布&＃xff08;Bernoulli&＃xff09;

接下来&＃xff0c;我们尝试&＃xff1a;

将逻辑回归因变量
变换到式
的形式&＃xff0c;确定以上几个函数&＃xff0c;验证其属于指数分布族。
求解出逻辑回归对应的链接函数。注意&＃xff0c;此时我们还没有认可sigmoid函数。⚠️

由于逻辑回归假设

服从伯努利分布&＃xff08;Bernoulli&＃xff09;&＃xff0c;即&＃xff1a;

对比式

指数函数族的通用形式&＃xff0c;我们发现&＃xff1a;

这说明伯努利分布也是指数分布族&＃xff08;exponential family&＃xff09;的成员。按GLM的第二要素定义&＃xff1a;

我们再计算

的反函数&＃xff0c;就得到了

函数&＃xff1a;

按类似方法&＃xff0c;我们可以推导出各分布函数及其链接函数&＃xff0c;如图5所示。

图 5 - 常用分布及其正则链接函数&＃xff08;摘自维基百科&＃xff09;

从广义线性模型角度&＃xff0c;我们确实推导出

函数与逻辑回归之间密不可分的联系。但是&＃xff0c;sigmoid函数输出值为什么可以代表概率&＃xff1f;

上文提到&＃xff0c;逻辑回归中因变量

服从伯努利分布&＃xff0c;而

伯努利分布的参数

的含义就是样例属于

的概率。

Part 3. 利用极大似然估计法估计参数

在模型参数估计问题上&＃xff0c;两大主流学派持有不同观点&＃xff1a;

频率主义学派&＃xff08;Frequentist&＃xff09;&＃xff1a;认为参数虽然未知&＃xff0c;但却是客观存在的固定值。因此&＃xff0c;可通过优化似然函数等准则估计参数值。
贝叶斯学派&＃xff08;Bayesian&＃xff09;&＃xff1a;认为参数是未观察到的随机变量&＃xff0c;其本身也可有分布。因此&＃xff0c;可假定参数服从一个先验分布&＃xff0c;再基于观察到的数据来计算参数的后验分布。

极大似然估计法&＃xff08;Maximum Likelihood Estimation&＃xff0c;MLE&＃xff09;属于频率主义学派方法&＃xff0c;其蕴含的朴素思想在于&＃xff1a;

我们已经确定了一个模型种类

&＃xff0c;但还不清楚其真实参数

。既然目前观察样本已经出现&＃xff0c;那么就

由果溯因&＃xff0c;估计出一组参数

&＃xff0c;使得出现目前结果的可能性

最大&＃xff08;优化目标&＃xff09;&＃xff0c;如图6所示。

由于一组样本中的所有样例是一个整体&＃xff0c;因此我们将各样例的概率相乘&＃xff08;排列组合中的乘法原理&＃xff09;来得到我们的目标函数。

图 6 - 极大似然估计&＃xff08;Maximum Likelihood Estimation)

我们把第

个样例的类别属于

的概率记为&＃xff1a;

现在&＃xff0c;我们有观测样本

&＃xff0c;那么似然函数为&＃xff1a;

其中&＃xff0c;样例

具有标签

。右边为什么要写成这种形式呢&＃xff1f;主要原因在于这是

伯努利分布的常见形式。按正负样例分析&＃xff0c;可以帮助你理解这个形式&＃xff1a;

时&＃xff0c;
时&＃xff0c;

为便于求解&＃xff0c;将连乘

转为

&＃xff0c;我们对等式

两边同取对数

&＃xff0c;写成对数似然函数&＃xff1a;

我们的优化目标是&＃xff1a;

认真考虑后&＃xff0c;我们发现并没有其他约束项。(事实上&＃xff0c;这里将蕴含正则项的思想)

接下来&＃xff0c;我们将进入最优化理论的求解范畴。

Part 4. 最优化问题求解之梯度下降法

在最优化问题求解上&＃xff0c;我们一般可分为两种&＃xff1a;

解析解&＃xff1a;通过严格的公式推导&＃xff0c;所求得的解。

例如&＃xff0c;一元二次方程

&＃xff0c;其求解公式是&＃xff1a;

数值解&＃xff1a;采用某种计算方法&＃xff0c;如数值逼近、插值等方法&＃xff0c;得到的解。如图7所示。

图 7 - 基于数值计算求解方程

当然&＃xff0c;能得到解析解自然是最好的&＃xff0c;但在很多场景下我们无法精确计算&＃xff0c;只能利用计算机模拟来近似计算&＃xff0c;也就是数值解。

在式

这个问题中&＃xff0c;我们很难通过解析求解&＃xff0c;因此可采用数值计算方法。例如&＃xff0c;以经典的梯度下降法&＃xff08;Gradient Descent&＃xff09;来介绍求解过程。

如图8所示&＃xff0c;我们可以直观理解为&＃xff0c;如果随着最陡的方向下山&＃xff0c;那就会更快到达山谷。

图 8 - 梯度下降法

那这个"陡"在数学上是如何衡量的呢&＃xff1f;答案就是导数&＃xff0c;导数方向上&＃xff0c;函数值变化最快。

对于多元函数

&＃xff0c;我们也可以计算它们的“导数”&＃xff0c;也就是偏导数。

偏导数是指先固定其他维度当作常数&＃xff0c;只计算某一维度上的导数。如图9所示&＃xff0c;对于所处位置点

在
轴方向上&＃xff0c;固定
&＃xff0c;即
&＃xff0c;则导数为
.
在
轴方向上&＃xff0c;固定
&＃xff0c;即
&＃xff0c;则导数为
.

图 9 - 二元函数的偏导数

图9所示二元函数的梯度可以定义为&＃xff1a;

下山的方向已经找到了&＃xff0c;但还有一个问题是&＃xff0c;我们的步子&＃xff08;step&＃xff09;迈多大&＃xff1f;

如图10所示&＃xff0c;步长过大或过小都会产生一些问题。因此&＃xff0c;在不同阶段能够自动调整步长&＃xff0c;可以更好地保证收敛。

图 10 - 不同步长的影响

为简便起见&＃xff0c;我们暂且忽略这个问题&＃xff0c;假设步长

是一个常数&＃xff0c;即在任意时候&＃xff0c;我们都按梯度方向迈等长的步子。

回到式

这个问题中&＃xff1a;

我们不断重复这一过程&＃xff1a;达到某个点

后&＃xff0c;继续计算下一个点

&＃xff1a;

那么&＃xff0c;这个迭代过程何时才能停止呢&＃xff1f;一般满足以下任意条件即可&＃xff1a;

达到迭代次数上限&＃xff1a;
学习曲线变化很小&＃xff1a;
小于阈值。

Part 5. 正则项的作用和种类

在机器学习模型训练&＃xff08;也就是参数估计&＃xff09;时&＃xff0c;我们常会遇到过拟合和欠拟合现象&＃xff0c;如图11所示。那我们有没有办法来解决过拟合呢&＃xff1f;

图 11 - 学习过拟合和欠拟合的理解

对于参数&＃xff1a;

&＃xff0c;我们理解其服从某个分布。从贝叶斯角度解释&＃xff0c;正则项是

引入先验信息&＃xff08;初始化&＃xff09;来约束参数的取值分布。

正则化一般会采用以下2种范数&＃xff1a;

范数&＃xff1a;

范数:

图 12 - L1正则和L2正则的约束效果

从图12可见&＃xff0c;

范数帮助更容易得到

稀疏解&＃xff0c;而

范数帮助更容易得到

平滑解。

接下来分析下引入正则项后&＃xff0c;目标损失函数的变化情况&＃xff0c;也就是前文所说的约束项。

1. LASSO回归

此时加入

正则&＃xff0c;其假设参数

服从

零均值拉普拉斯分布&＃xff0c;即&＃xff1a;

此时&＃xff0c;式

的似然函数变为&＃xff1a;

取对数

并转换后&＃xff0c;我们得到&＃xff1a;

2. Ridge 回归

此时加入

正则&＃xff0c;其假设参数

服从

零均值正态分布&＃xff0c;即&＃xff1a;

此时&＃xff0c;式

的似然函数变为&＃xff1a;

取对数

并转换后&＃xff0c;我们得到&＃xff1a;

Part 6. 总结

本文的思维导图为&＃xff1a;

下一篇&＃xff0c;我们将尝试探索&＃xff1a;样本权重对逻辑回归的影响&＃xff0c;包括权重系数、模型性能等。

致谢

感谢参考资料的作者带给我的启发。本文尚有理解不当之处&＃xff0c;欢迎批评指正。

版权声明

欢迎转载分享&＃xff0c;请在文章中注明作者和原文链接&＃xff0c;感谢您对知识的尊重和对本文的肯定。

原文作者&＃xff1a;求是汪在路上&＃xff08;知乎ID&＃xff09;
原文链接&＃xff1a;https://zhuanlan.zhihu.com/p/111260930/

⚠️著作权归作者所有。商业转载请联系作者获得授权&＃xff0c;非商业转载请注明出处&＃xff0c;侵权转载将追究相关责任。

参考资料

CSDN-专业IT技术社区-登录blog.csdn.net如何通俗地理解概率论中的「极大似然估计法」?www.zhihu.com

机器学习中的logistic regression的sigmoid函数如何解释&＃xff1f;为啥要用它&＃xff1f;www.zhihu.com

CSDN-专业IT技术社区-登录blog.csdn.net什么是梯度下降法&＃xff1f;www.zhihu.com

https://encyclopedia.thefreedictionary.com/Generalized&＃43;linear&＃43;modelencyclopedia.thefreedictionary.com阿泽&＃xff1a;【机器学习】逻辑回归&＃xff08;非常详细&＃xff09;zhuanlan.zhihu.com

关于作者&＃xff1a;

在某互联网金融公司从事风控建模、反欺诈、数据挖掘等方面工作&＃xff0c;目前致力于将实践经验固化分享&＃xff0c;量化成长轨迹。欢迎交流

推荐阅读

数据挖掘
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
int
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
web
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
web
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
web
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
web
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
int
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
replace
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
main
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
int
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
int
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
int
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03

君哥哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章