热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于Logistict回归的评分卡模型

点击「京东数科技术说」可快速关注

点击「京东数科技术说」可快速关注

基于 Logistict 回归的评分卡模型

「摘要」 信用评分模型是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。利用信用评分模型得到的客户信用评分,可作为是否准予授信或为授信额度和利率提供参考。

在实际应用中,评分卡模型的作用日渐突出。如:评分卡模型可帮助银行、金融机构等更有效地管理资产风险,优化账户管理策略。银行通过信用评分模型,降低误判率,提高收入,并且能准确预测违约率,控制不良贷款比率。

今天,笔者将为大家介绍基于Logistic回归的评分卡模型,分享量化团队分析师构建评分卡模型的全过程,并逐步介绍模型算法、模型评价指标等具体实现方式。  

1

评分卡分类

基于 Logistict 回归的评分卡模型

A卡(Applicationscore card)新客户申请审批

  • 更准确地评估申请人的未来表现(违约率),降低坏帐率;

  • 加快(自动化)审批流程, 降低营运成本;

  • 增加审批决策的客观性和一致性,提高客户满意度;

B卡(Behaviorscore card)现有客户管理

  • 更好的客户管理策略, 提高赢利;

  • 减少好客户的流失;

  • 对可能拖欠的客户,提早预警;

C卡(Collectionscore card)早期催收

  • 优化催收策略,提高欠帐的回收率;

  • 减少不必要的催收行为,降低营运成本。

2

模型开发全流程

用一张图为大家展示,量化团队分析师开发评分卡模型的全流程,以及具体实现方式:

基于 Logistict 回归的评分卡模型

Step1:变量初选

通过等频分箱或最优分箱离散原始数据,计算IV值,剔除预测能力差的指标。

  • 信息值(information value,简称”IV”)是常用的进行自变量筛选的指标,计算简单,并且有经验的判断法则,IV值的计算公式为:

基于 Logistict 回归的评分卡模型

基于 Logistict 回归的评分卡模型

基于 Logistict 回归的评分卡模型

Step2:变量剔除

通过变量聚类或者计算相关系数的方法剔除变量,这一步主要目的是解决多重共线性问题。多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

Step3:数据离散化

数据离散化的目的是降低异常值的影响,同时增加模型的可解释性,通过BESTKs、卡方合并、决策树等有监督算法将连续变量离散化几个区间,然后进行WOE转换。

  • 证据权重(Weight of Evidence,简称“WOE”)

基于 Logistict 回归的评分卡模型

WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。

基于 Logistict 回归的评分卡模型

Step4:初步建模

将原始指标用WOE进行替换后,用logistic回归估计参数,并剔除参数估计为负的变量。

下面让我们来了解一下信用评分卡模型所依赖的Logistic回归算法。何为“回归”呢?当有一些数据点,用一条直线对这些点进行拟合(该直线称为最佳拟合直线),这个拟合过程就叫回归。那么,利用Logistic回归进行分类的主要思想就是根据现有数据对分类边界线建立回归公式,以此进行分类。“回归”源于最佳拟合,即使用最优化算法,找到最佳拟合参数集。

  • Logistic回归的实现:对于输入特征,每个特征乘以一个回归系数,将所有结果值相加带入Sigmoid函数中,从而得到一个0~1之间的数值,根据实际情况设定相关阈值,从而达到预测的目的。

  • 最优化算法:如何找到最优回归系数,是Logistic回归的关键问题。

基于 Logistict 回归的评分卡模型

即:找到上式的 机器学习中常用的最优化算法有:梯度下降法(GradientDescent)、牛顿法和拟牛顿法(Newton's method & Quasi-NewtonMethods)、共轭梯度法(Conjugate Gradient)等等,接下来简单介绍梯度下降法。

  • 梯度下降法(Gradient Descent):梯度下降即沿着某函数的梯度方向,找到该函数的最小值,如果梯度记为▽,则函数f(x,y)的梯度为:

基于 Logistict 回归的评分卡模型

则梯度下降算法的迭代公式为: 基于 Logistict 回归的评分卡模型其中, 为步长。

Step5:人工干预

根据指标的业务意义、上下限、人数占比、违约比例调整分箱规则,即业务干预。

Step6:WOE更新

人工干预后,得到新的分箱,根据新分箱,更新WOE。

Step7:模型更新

更新完WOE之后,利用新的WOE值估计回归参数。

Step8:分数转化

根据Logistic回归估计的参数、分箱的WOE来确定每个区间的得分。

Step9:模型效果评估

我们利用AUC、KS等指标评估模型的预测能力。

  • AUC(Area Under Curve)

AUC实际上就是ROC曲线下的面积,ROC曲线反映了分类器的分类能力,结合考虑了分类器输出概率的准确性,AUC量化了ROC曲线的分类能力,越大分类效果越好,输出概率越合理。

  • KS (Kolmogorov-Smirnov)

K-S统计量被应用于信用评级模型主要是为了验证模型对违约对象的区分能力,是表现模型区分能力的验证指标;通常,如果模型的K-S统计量越大,表明模型区分正常客户和违约客户的能力越强。

Step10:模型监控

  • PSI (population stability index) 

系统稳定性指数,主要考察了模型预测结果的稳定性,通过对建模样本和监控样本中客户的评分或评级分布的比较来判断模型预测结果的稳定性。系统稳定性指数越小,越稳定,表明监控样本的分数的分布情况和建模样本中的情况越相似,可以预期模型在监控样本中的性能表现和建模样本中的性能表现会很接近。

Step11:评分

下面的小示例,简单为大家展示评分卡及其计分模式:

基于 Logistict 回归的评分卡模型

如果该模型的基础分是50分,比如有个客户,大专毕业,男性,拥有自有住房,工作10年以上,那么他的分数就应该是:Score=50+14+9+24+12=109。

3

总  结

本文介绍了基于Logistic回归的评分卡模型的实现流程,介绍了Logistic算法、IV值和WOE,以及评价模型的指标AUC、ks值、PSI等。在实际应用中,评分卡模型的作用日渐突出。量化团队根据业务需要开发各种不同评分卡模型,并尝试不同算法建模,试图更加科学、准确地构建模型,降低误判率,增加审批的客观性,提高客户的满意度。

关于我们

京东数科运营决策团队基于大数据环境,结合丰富的业务场景,利用机器学习专业技术,不断挖掘海量数据中蕴含的丰富信息,我们已将一系列机器学习模型应用到多个领域中,并且坚持在算法深度的道路上持续探索,致力于对未知信息和事件做出更精准预测,使业务运营策略更加精准有效。

京东数科技术说&技术课堂

▼▼▼      

由京东数科-技术研发部策划组织

倡导“原创·实用·技术·专业”

致力于分享技术领域实战经验与技术干货

线上订阅“京东数科技术说”,线下聆听“技术课堂”

为加强技术分享、总结沉淀,提升数科技术影响力而搭建的

线上线下融合交流平台

基于 Logistict 回归的评分卡模型 基于 Logistict 回归的评分卡模型 基于 Logistict 回归的评分卡模型 不只一技之长 · 我有N技在手 基于 Logistict 回归的评分卡模型 基于 Logistict 回归的评分卡模型 基于 Logistict 回归的评分卡模型

咨询、建议、合作请联系:

刘嘉璐(liujialu)/张明瑛(zhangmingying3)

基于 Logistict 回归的评分卡模型
基于 Logistict 回归的评分卡模型
基于 Logistict 回归的评分卡模型

长按识别二维码关注我们


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 我们


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了brain的意思、读音、翻译、用法、发音、词组、同反义词等内容,以及脑新东方在线英语词典的相关信息。还包括了brain的词汇搭配、形容词和名词的用法,以及与brain相关的短语和词组。此外,还介绍了与brain相关的医学术语和智囊团等相关内容。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 本文介绍了在使用Laravel和sqlsrv连接到SQL Server 2016时,如何在插入查询中使用输出子句,并返回所需的值。同时讨论了使用CreatedOn字段返回最近创建的行的解决方法以及使用Eloquent模型创建后,值正确插入数据库但没有返回uniqueidentifier字段的问题。最后给出了一个示例代码。 ... [详细]
author-avatar
果粒仙子妹妹
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有