热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

pythonspssmodeler比较_使用SPSSModeler进行客户流失预测

现在很多业务场景我们会使用excel进行数据分析,数据量大的时候使用python,但是今天使用一款很小却很实用的软件SPSSModeler进行我们客户流

现在很多业务场景我们会使用excel进行数据分析,数据量大的时候使用python,但是今天使用一款很小却很实用的软件SPSS Modeler进行我们客户流失的预测。

目录

1.分析问题

2.介绍数据

3.建模做出分析报告

1.分析问题

我们想知道电信用户流失的原因,换句话说,也就是找出影响用户流失的因素。找出客户流失的因素,这其实属于一个数据挖掘(Data Mining)的问题,就是仅仅从数据中挖掘出一点有趣的东西出来,不涉及之后的模型预测问题,如果涉及到模型的预测,我觉得应该归属到机器学习(machine learning)的领域。

2.介绍数据

巧妇难为无米之炊,没人可以脱离数据去做数据分析。那我们来看我们的数据是什么样子。我们数据是SAV格式,一般的编辑器无法打开,只能用特定的软件,在一定程度上保证了安全性和可靠性。

数据量为1000,有15个字段。截图如下:

我们可以看到数据已经被预处理过,也就是很多分类型变量被直接变成了数值,比如居住地,婚姻状况,教育水平,我们把这些字符用数字代替,来方便计算机进行计算。

3.建模做出分析报告

我们先来看一下特征选择的部分,就是我们是要把所有的数据都使用呢,还是只使用一部分。使用一部分数据的好处,主要在于省空间,省内存;二是避免过拟合的情况,数据维度越多,模型越容易学到不相干的信息,会导致过拟合。

我们看看SPSS对于这段数据的特征选择情况。

它会傻瓜式地告诉你如何挑选变量进入到你的模型中。SPSS默认采用的是pearson相关系数去计算两个变量的相关程度。

公式定义为:两个连续变量(X,Y)的pearson相关性系数P(x,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。

看过了公式,我们开始创建测试集和训练集,之后采用CART树建模,数据流如下:

SPSS生成的报告是这样。

可以看到变量的重要性。开通月数最重要,套餐类型其次。

我们的结论也可以得出:

结论:

1、老客户入网时间长,对企业忠诚

2、新客户,申请附加套餐业务,保有率高

3、新客户申请其他套餐业务,保持性不好

4、更应关注费用,在改善服务类型上下功夫

这样,一个简单的建模就完成了,我们也可以用python的sklearn模块完成一模一样的功能。



推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • Hired网站最新发布的开发者调查显示,Python 语言继续受到开发者的广泛欢迎,而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据,深入分析了当前编程语言的使用趋势和开发者偏好。此外,报告还探讨了其他热门语言如 JavaScript 和 Java 的表现,并提供了对技术招聘市场的洞见。 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • Excel 数据分析基础
    Excel 是数据分析中最基本且强大的工具之一,具备多种实用功能和操作方法。本文将简要介绍 Excel 的不同版本及其兼容性问题,并探讨在处理大数据时的替代方案。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 本文介绍如何使用OpenCV和线性支持向量机(SVM)模型来开发一个简单的人脸识别系统,特别关注在只有一个用户数据集时的处理方法。 ... [详细]
  • 如何撰写数据分析师(包括转行者)的面试简历?
    CDA数据分析师团队出品,作者:徐杨老师,编辑:Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历,特别是对于转行者。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 如何使用mysql_nd:Python连接MySQL数据库的优雅指南
    无论是进行机器学习、Web开发还是爬虫项目,数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面: ... [详细]
  • 蜘蛛表格:全面解析与应用指南
    蜘蛛表格:全面解析与应用指南 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • PHP开发人员薪资水平分析:工程师平均工资概况
    PHP开发人员薪资水平分析:工程师平均工资概况 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
author-avatar
黎芝君1_530
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有