热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

纯干货:大数据挖掘方法及案例介绍(以后不会再被忽悠了)

1、数据挖掘的引入面对山一样高的,海一样广的数据,我们该怎么办?数据挖掘中的5W问题为什么要使用数据挖掘?数据挖掘是什么&#

1、数据挖掘的引入

面对山一样高的,海一样广的数据,我们该怎么办?

0?tp=webp&wxfrom=5

数据挖掘中的5W问题

为什么要使用数据挖掘?

数据挖掘是什么?

谁在使用数据挖掘?

数据挖掘有哪些方法?

数据挖掘使用在哪些领域?

百度百科中关于数据挖掘的定义如下:

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是一门跨多个领域的交叉学科,通常与人工智能、模式识别及计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其特点为:海量数据寻知识、集成变换度量值、分析模式评效果、图形界面来展示。

数据挖掘主要构建四大类模型:分类、聚类、预测及关联。

0?tp=webp&wxfrom=5

分类

0?tp=webp&wxfrom=5

聚类

0?tp=webp&wxfrom=5

预测

0?tp=webp&wxfrom=5

关联

数据挖掘是BI领域的一个重要方向

BI通过对行业的认知、经验,结合数学理论、管理理论、市场营销理论,利用工具软件、数学算法(如:神经网路、遗传算法、聚类、客户细分等)对企业的数据、业务、市场进行分析及预测,以图表、数据分析报告的形式支撑企业决策、市场营销、业务拓展、信息运营等工作。

数据+人+工具+算法+知识+预测=商业智能(BI)

数据挖掘在电信行业的应用:

如何发现电信客户的特征和分类

如何预测哪些即将流失的客户

如何评价客户的贡献价值

如何判断客户的欺诈行为特征

如何发掘我的潜在客户

如何对欠费/坏账进行预测和控制

大客户的消费行为特征是什么,人口统计学特征是什么

如何知道公司未来一段时间收入情况,及某一收入因子对整个收入的影响指数

……还有更多

2、数据挖掘建模方法

数据挖掘建模建模方法简介

数据挖掘过程模型独立于具体的数据挖掘模型和系统,从方法论的角度明确实施数据挖掘项目的流程和步骤。常用的有CRISP-DM,SEMMA和5A三种过程模型,如下图所示:

0?tp=webp&wxfrom=5

其中,SEMMA、5A及CRISP-DM过程模型如下各图示例

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

数据挖掘建模步骤1-商业理解

商业理解:理解商业目标和业务需求,幵转化为数据挖掘的问题定义。

常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然会找到一些以前我们不知道的,有用的规律和知识。

0?tp=webp&wxfrom=50?tp=webp&wxfrom=5

数据挖掘建模步骤2-数据理解

数据理解:筛选所需数据,校验数据质量,了解数据含义及特性。

数据理解,顾名思义就是基于对业务问题的梳理分析,找到合适的分析斱法戒者斱法论指导模型指标设计,确保指标体系化、全面性。

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

数据挖掘建模步骤3-数据准备(1)

0?tp=webp&wxfrom=5

数据挖掘建模步骤3-数据准备(2)

数据探索主要涉及两项工作:第一,进行数据检测、分析、验证是否符合指标设计初衷和业务涵义;第二,根据建模需要进行部分数据的标准化处理,使不同的指标在相同的量纲上进行数学运算。

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

数据挖掘建模步骤4-模型建立

根据建模场景进行算法选择:如描述类有分类规则、聚类分析,预测类有、神经网络、决策树、时间序列、回归分析、关联分析、贝叶斯网络、偏差检测,评估类有因子分析、主成分分析、数学公式;并结合数据情况(如离散值、连续值,数据量大小)等选择合适的算法 。

0?tp=webp&wxfrom=5

数据挖掘建模步骤5-模型评估

模型评估目的在于:什么样的模型是有效的?模型的实际应用效果如何?

根据样本数据,模型结果实际效果反馈数据迚行模型评估。

0?tp=webp&wxfrom=5

数据挖掘建模步骤6-模型发布

聚焦业务问题提供端到端的专题解决方案;

提高数据挖掘应用的效果和价值。

0?tp=webp&wxfrom=5

数据挖掘建模步骤7-模型优化

0?tp=webp&wxfrom=5

3、数据挖掘算法介绍

1)、聚类分析

0?tp=webp&wxfrom=5

2)、分类(决策树)

0?tp=webp&wxfrom=5

3)、预测(BP神经网路)

BP神经网络是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的网络系统,它不但具有处理数值数据的一般计算能力,而且还具有处理知识的思维、学习、记忆能力。

在数据挖掘中经常利用神经网络的学习、记忆、模型工能进行一些预测。

基于神经网络的数据挖掘过程由数据准备、规则提取和规则应用、预测评估四个阶段组成。其中,规则提取是我们模型预测的核心。

0?tp=webp&wxfrom=5

4)、预测(回归)

0?tp=webp&wxfrom=5

5)、关联规则

0?tp=webp&wxfrom=5

6)、数据处理(主成分/因子分析)

0?tp=webp&wxfrom=5

7)、指纹算法

重入网识别技术-呼叫指纹算法

“呼叫指纹”,用户在使用电信运营商的产品及服务过程中所产生的交际圈、呼叫特征、短信特征、位置特征、客服特征、终端特征等信息。这些特征对每一用户而言,是相对稳定的,且存在个体差异。

重入网识别依据:利用“呼叫指纹”特征,建立新发展用户和老用户核心指纹库,指纹相似度越大,判断为统一用户的的概率越大。

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

0?tp=webp&wxfrom=5

4、数据挖掘应用案例

1)、流失预警模型

客户流失预警模型的建设目的是提前预测客户的流失可能性,根据客户特征对客户进行分群、建模,筛选出可能即将要流失的用户,辅助业务部门提高客户维系挽留工作的效率、提高维系成本的使用效率,降低客户流失率。

0?tp=webp&wxfrom=5

2)、用户真实性识别模型

根据用户入网以后的使用行为、使用位置、缴费特征等识别出虚假用户、欠真实性用户和真实性用户,从而根据不同的用户群采取不同的维系策略,如虚假用户的防范措施,欠真实性用户的补救措施 。

0?tp=webp&wxfrom=5

3)、客户细分模型

0?tp=webp&wxfrom=5



推荐阅读
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
  • PHP开发人员薪资水平分析:工程师平均工资概况
    PHP开发人员薪资水平分析:工程师平均工资概况 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • 理工科男女不容错过的神奇资源网站
    十一长假即将结束,你的假期学习计划进展如何?无论你是在家中、思念家乡,还是身处异国他乡,理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档,能够帮助你在假期中高效学习和提升专业技能。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 本文深入解析了 Python 爬虫技术在 B 站数据挖掘中的应用,通过分析海量用户行为和内容数据,揭示了热门 UP 主成功的背后因素。Python 作为一种强大的编程语言,其面向对象和解释执行的特点使其成为数据抓取和处理的理想选择。文章详细介绍了如何利用 Python 爬虫技术获取 B 站的数据,并通过数据分析方法,探讨了热门 UP 主的创作策略和互动模式,为内容创作者提供了有价值的参考。 ... [详细]
  • 业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹?
    业务团队与独立团队在数据分析领域的效能对比:谁更胜一筹? ... [详细]
  • 在拉斯维加斯举行的Interop 2011大会上,Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异,并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素,以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]
  • 美团优选推荐系统架构师 L7/L8:算法与工程深度融合 ... [详细]
  • 在C#中开发MP3播放器时,我正在考虑如何高效存储元数据以便快速检索。选择合适的数据结构,如字典或数组,对于优化性能至关重要。字典能够提供快速的键值对查找,而数组则在连续存储和遍历方面表现优异。根据具体需求,合理选择数据结构将显著提升应用的响应速度和用户体验。 ... [详细]
  • MySQL索引详解及其优化策略
    本文详细解析了MySQL索引的概念、数据结构及管理方法,并探讨了如何正确使用索引以提升查询性能。文章还深入讲解了联合索引与覆盖索引的应用场景,以及它们在优化数据库性能中的重要作用。此外,通过实例分析,进一步阐述了索引在高读写比系统中的必要性和优势。 ... [详细]
  • 为了评估精心优化的模型与策略在实际环境中的表现,Google对其实验框架进行了全面升级,旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景,提供更好的数据洞察,并显著缩短了实验周期,从而加速产品迭代和优化过程。 ... [详细]
author-avatar
明诺新源研_889
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有