热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

纯干货:大数据挖掘方法及案例介绍(以后不会再被忽悠了)

1、数据挖掘的引入面对山一样高的,海一样广的数据,我们该怎么办?数据挖掘中的5W问题为什么要使用数据挖掘?数据挖掘是什么&#

1、数据挖掘的引入

面对山一样高的,海一样广的数据,我们该怎么办?

0?tp=webp&wxfrom=5

数据挖掘中的5W问题

为什么要使用数据挖掘?

数据挖掘是什么?

谁在使用数据挖掘?

数据挖掘有哪些方法?

数据挖掘使用在哪些领域?

百度百科中关于数据挖掘的定义如下:

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示。

数据挖掘主要构建四大类模型:分类、聚类、预测及关联。

0?tp=webp&wxfrom=5

分类

0?tp=webp&wxfrom=5

聚类

0?tp=webp&wxfrom=5

预测

0?tp=webp&wxfrom=5

关联

数据挖掘是BI领域的一个重要方向

BI通过对行业的认知、经验,结合数学理论、管理理论、市场营销理论,利用工具软件、数学算法(如:神经网路、遗传算法、聚类、客户细分等)对企业的数据、业务、市场进行分析及预测,以图表、数据分析报告的形式支撑企业决策、市场营销、业务拓展、信息运营等工作。

数据+人+工具+算法+知识+预测=商业智能(BI)

数据挖掘在电信行业的应用:

如何发现电信客户的特征和分类

如何预测哪些即将流失的客户

如何评价客户的贡献价值

如何判断客户的欺诈行为特征

如何发掘我的潜在客户

如何对欠费/坏账进行预测和控制

大客户的消费行为特征是什么,人口统计学特征是什么

如何知道公司未来一段时间收入情况,及某一收入因子对整个收入的影响指数

……还有更多

2、数据挖掘建模方法

数据挖掘建模建模方法简介

数据挖掘过程模型独立于具体的数据挖掘模型和系统,从方法论的角度明确实施数据挖掘项目的流程和步骤。常用的有CRISP-DM,SEMMA和5A三种过程模型,如下图所示:

0?tp=webp&wxfrom=5

其中,SEMMA、5A及CRISP-DM过程模型如下各图示例

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

数据挖掘建模步骤1-商业理解

商业理解:理解商业目标和业务需求,幵转化为数据挖掘的问题定义。

常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。

0?tp=webp&wxfrom=50?tp=webp&wxfrom=5

数据挖掘建模步骤2-数据理解

数据理解:筛选所需数据,校验数据质量,了解数据含义及特性。

数据理解,顾名思义就是基于对业务问题的梳理分析,找到合适的分析斱法戒者斱法论指导模型指标设计,确保指标体系化、全面性。

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

数据挖掘建模步骤3-数据准备(1)

0?tp=webp&wxfrom=5

数据挖掘建模步骤3-数据准备(2)

数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

数据挖掘建模步骤4-模型建立

根据建模场景进行算法选择:如描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法 。

0?tp=webp&wxfrom=5

数据挖掘建模步骤5-模型评估

模型评估目的在于:什么样的模型是有效的?模型的实际应用效果如何?

根据样本数据,模型结果实际效果反馈数据迚行模型评估。

0?tp=webp&wxfrom=5

数据挖掘建模步骤6-模型发布

聚焦业务问题提供端到端的专题解决方案;

提高数据挖掘应用的效果和价值。

0?tp=webp&wxfrom=5

数据挖掘建模步骤7-模型优化

0?tp=webp&wxfrom=5

3、数据挖掘算法介绍

1)、聚类分析

0?tp=webp&wxfrom=5

2)、分类(决策树)

0?tp=webp&wxfrom=5

3)、预测(BP神经网路)

BP神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,它不但具有处理数值数据的一般计算能力,而且还具有处理知识的思维、学习、记忆能力。

在数据挖掘中经常利用神经网络的学习、记忆、模型工能进行一些预测。

基于神经网络的数据挖掘过程由数据准备、规则提取和规则应用、预测评估四个阶段组成。其中,规则提取是我们模型预测的核心。

0?tp=webp&wxfrom=5

4)、预测(回归)

0?tp=webp&wxfrom=5

5)、关联规则

0?tp=webp&wxfrom=5

6)、数据处理(主成分/因子分析)

0?tp=webp&wxfrom=5

7)、指纹算法

重入网识别技术-呼叫指纹算法

“呼叫指纹”,用户在使用电信运营商的产品及服务过程中所产生的交际圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户而言,是相对稳定的,且存在个体差异。

重入网识别依据:利用“呼叫指纹”特征,建立新发展用户和老用户核心指纹库,指纹相似度越大,判断为统一用户的的概率越大。

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

4、数据挖掘应用案例

1)、流失预警模型

客户流失预警模型的建设目的是提前预测客户的流失可能性,根据客户特征对客户进行分群、建模,筛选出可能即将要流失的用户,辅助业务部门提高客户维系挽留工作的效率、提高维系成本的使用效率,降低客户流失率。

0?tp=webp&wxfrom=5

2)、用户真实性识别模型

根据用户入网以后的使用行为、使用位置、缴费特征等识别出虚假用户、欠真实性用户和真实性用户,从而根据不同的用户群采取不同的维系策略,如虚假用户的防范措施,欠真实性用户的补救措施 。

0?tp=webp&wxfrom=5

3)、客户细分模型

0?tp=webp&wxfrom=5



推荐阅读
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 大数据核心技术解析
    本文深入探讨了大数据技术的关键领域,包括数据的收集、预处理、存储管理、以及分析挖掘等方面,旨在提供一个全面的技术框架理解。 ... [详细]
  • 本文探讨了随着并发需求的增长,MySQL数据库架构如何从简单的单一实例发展到复杂的分布式系统,以及每一步演进背后的原理和技术解决方案。 ... [详细]
  • 地球坐标、火星坐标及百度坐标间的转换算法 C# 实现
    本文介绍了WGS84坐标系统及其精度改进历程,探讨了火星坐标系统的安全性和应用背景,并详细解析了火星坐标与百度坐标之间的转换算法,提供了C#语言的实现代码。 ... [详细]
  • 掌握Python岗位,你需要了解的关键技能
    最近,在社交平台脉脉上,一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值,并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 知识图谱与图神经网络在金融科技中的应用探讨
    本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲,探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]
  • 由二叉树到贪心算法
    二叉树很重要树是数据结构中的重中之重,尤其以各类二叉树为学习的难点。单就面试而言,在 ... [详细]
  • 主调|大侠_重温C++ ... [详细]
  • 本文档介绍了如何在Visual Studio 2010环境下,利用C#语言连接SQL Server 2008数据库,并实现基本的数据操作,如增删改查等功能。通过构建一个面向对象的数据库工具类,简化了数据库操作流程。 ... [详细]
  • 解决Spring Boot项目创建失败的问题
    在尝试创建新的Spring Boot项目时遇到了一些问题,具体表现为在项目创建过程中的两个关键步骤出现错误。本文将详细探讨这些问题及其解决方案。 ... [详细]
  • 2017年人工智能领域的十大里程碑事件回顾
    随着2018年的临近,我们一同回顾过去一年中人工智能领域的重要进展。这一年,无论是政策层面的支持,还是技术上的突破,都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]
  • 本文详细介绍了如何使用 PHP 编程语言输出 99 乘法表,包括使用不同的循环结构如 do-while、for 循环等方法,并提供了具体的代码示例。 ... [详细]
  • 探索Python编程的价值与应用
    本文探讨了学习Python的重要性和广泛的应用场景,从个人技能提升到职业发展的多个方面进行了详细解析。 ... [详细]
  • 本文深入探讨了数据挖掘领域内的十个经典算法,包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础,也在实践中展现出强大的应用价值。 ... [详细]
author-avatar
明诺新源研_889
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有