怎么判断sas数据集是否存在_几个经典的数据挖掘方法论

作者：涿州雨嫣舞蹈培训中心_144 | 来源：互联网 | 2023-10-13 06:31

目录CRISP-DM方法论SEMMA方法论TomKhabaza挖掘9律一、CRISP-DM方法论CRISP-DM方法论，全称Cross-IndustryStandar

一、CRISP-DM方法论

CRISP-DM方法论&＃xff0c;全称Cross-Industry Standard Process for Data Mining)&＃xff0c;即跨行业的数据挖掘标准流。SPSS公司1999年提炼出来的数据挖掘项目实践的标准方法论。CRISP-DM反映了数据挖掘中的自然迭代规律&＃xff0c;在实际工作中可以从其中某一点切入&＃xff0c;整体呈现螺旋优化的过程&＃xff0c;其对应的六个阶段分别如下:

1. 业务理解&＃xff08;business understanding&＃xff09;

从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.

2. 数据理解&＃xff08;data understanding&＃xff09;

开始于数据的收集工作。接下来就是熟悉数据的工作&＃xff1b;收集原始数据&＃xff0c;对数据进行装载&＃xff0c;描绘数据&＃xff0c;并且探索数据特征&＃xff0c;进行简单的特征统计&＃xff0c;检验数据的质量。

3. 数据准备&＃xff08;data preparation&＃xff09;

涵盖了从原始粗糙数据中构建最终数据集&＃xff08;将作为建模工具的分析对象&＃xff09;的全部工作。

4. 模型搭建&＃xff08;modeling&＃xff09;

各种各样的建模方法将被加以选择和使用&＃xff0c;通过建造&＃xff0c;评估模型将其参数将被校准为最为理想的值。

5. 模型评估&＃xff08;evaluation&＃xff09;

在这一阶段中已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前&＃xff0c;更加彻底的评估模型。回顾在构建模型过程中所执行的每一个步骤&＃xff0c;是非常重要的&＃xff0c;这样可以确保这些模型是否达到了企业的目标。是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时&＃xff0c;有关数据挖掘结果的使用应达成一致的决定。

6. 模型发布&＃xff08;deployment&＃xff09;

即将其发现的结果以及过程组织成为可读文本形式.模型的创建并不是项目的最终目的。

二、SEMMA方法论

SEMMA是SAS公司提出的数据挖掘首页应用方法论。SEMMA分别取自5个英文字母Samlpe&＃xff08;数据抽样&＃xff09;、Explore&＃xff08;数据探索&＃xff09;、Modify&＃xff08;数据调整&＃xff09;、Model&＃xff08;模式化&＃xff09;、Assess&＃xff08;评估与评价&＃xff09;。具体如下

1.数据抽样&＃xff08;Samlpe&＃xff09;

当进行数据挖掘时&＃xff0c;首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集&＃xff0c;而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选&＃xff0c;不仅能减少数据处理量&＃xff0c;节省系统资源&＃xff0c;而且能通过数据的筛选&＃xff0c;使你想要它反映的规律性更加凸现出来。

通过数据取样&＃xff0c;要把好数据的质量关。在任何时候都不要忽视数据的质量&＃xff0c;即使你是从一个数据仓库中进行数据取样&＃xff0c;也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的&＃xff0c;原始数据有误&＃xff0c;还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”&＃xff0c;再依此去指导工作&＃xff0c;则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样&＃xff0c;则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量&＃xff0c;慎之又慎&＃xff01;

从巨大的企业数据母体中取出哪些数据作为样本数据呢&＃xff1f;这要依你所要达到的目标来区分采用不同的办法&＃xff1a;如果你是要进行过程的观察、控制&＃xff0c;这时你可进行随机取样&＃xff0c;然后根据样本数据对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程&＃xff0c;而且可对所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时&＃xff0c;必须获得在足够广泛范围变化的数据&＃xff0c;以使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。唯此&＃xff0c;才能通过此后的分析研究得出反映本质规律性的结果。利用它支持你进行决策才是真正有效的&＃xff0c;并能使企业进一步获得技术、经济效益。

2.数据探索&＃xff08;Explore&＃xff09;

前面所叙述的数据取样&＃xff0c;多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。当我们拿到了一个样本数据集后&＃xff0c;它是否达到我们原来设想的要求&＃xff1b;其中有没有什么明显的规律和趋势&＃xff1b;有没有出现你所从未设想过的数据状态&＃xff1b;因素之间有什么相关性&＃xff1b;它们可区分成怎样一些类别……这都是要首先探索的内容。

进行数据特征的探索、分析&＃xff0c;最好是能进行可视化的操作。SAS有&＃xff1a;SAS/INSIGHT和SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示&＃xff0c;而且可做多维、动态、甚至旋转的显示。

这里的数据探索&＃xff0c;就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的&＃xff0c;十分复杂的关系。但是&＃xff0c;这种复杂的关系不可能一下子建立起来。一开始&＃xff0c;可以先观察众多因素之间的相关性&＃xff1b;再按其相关的程度&＃xff0c;以了解它们之间相互作用的情况。这些探索、分析&＃xff0c;并没有一成不变操作规律性&＃xff1b;相反&＃xff0c;是要有耐心的反复的试探&＃xff0c;仔细的观察。在此过程中&＃xff0c;你原来的专业技术知识是非常有用的&＃xff0c;它会帮助你进行有效的观察。但是&＃xff0c;你也要注意&＃xff0c;不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话&＃xff0c;那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识&＃xff01;有了它&＃xff0c;也许会导引你在此后的分析中&＃xff0c;得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了这种情况&＃xff0c;应当说&＃xff0c;你的数据挖掘已挖到了有效的矿脉。

在这里要提醒你的是要有耐心&＃xff0c;做几种分析&＃xff0c;就发现重大成果是不大可能的。所幸的是SAS向你提供了强有力的工具&＃xff0c;它可跟随你的思维&＃xff0c;可视化、快速的作出反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这就使你数据分析过程集聚于你业务领域的问题&＃xff0c;并使你的思维保持了一个集中的较高级的活动状态&＃xff0c;从而加速了你的思维过程&＃xff0c;提高了你的思维能力。

3.数据调整&＃xff08;Modify&＃xff09;

通过上述两个步骤的操作&＃xff0c;你对数据的状态和趋势可能有了进一步的了解。对你原来要解决的问题可能会有了进一步的明确&＃xff1b;这时要尽可能对问题解决的要求能进一步的量化。问题越明确&＃xff0c;越能进一步量化&＃xff0c;问题就向它的解决更前进了一步。这是十分重要的。因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题&＃xff0c;没有问题的进一步明确&＃xff0c;你简直就无法进行有效的数据挖掘操作。

在问题进一步明确化的基础上&＃xff0c;你就可以按照问题的具体要求来审视你的数据集了&＃xff0c;看它是否适应你的问题的需要。Gartner group在评论当前一些数据挖掘产品时特别强调指出&＃xff1a;在数据挖掘的各个阶段中&＃xff0c;数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态&＃xff0c;这才能保证数据挖掘有效的进行。

针对问题的需要可能要对数据进行增删&＃xff1b;也可能按照你对整个数据挖掘过程的新认识&＃xff0c;要组合或者生成一些新的变量&＃xff0c;以体现对状态的有效的描述。SAS对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。若使用了SAS的数据仓库产品技术时就更进一步保证了有效、方便的进行这些操作。

在问题进一步明确&＃xff1b;数据结构和内容进一步调整的基础上&＃xff0c;下一步数据挖掘应采用的技术手段就更加清晰、明确了。

4.模式化&＃xff08;Model&＃xff09;

这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔的技术领域&＃xff0c;但对SAS研究所来说并不是一件新鲜事。自从SAS问世以来&＃xff0c;就一直是统计模型市场领域的领头羊&＃xff0c;而且年年提供新产品&＃xff0c;并以这些产品体现业界技术的最新发展。

按照SAS提出的SEMMA方法论走到这一步时&＃xff0c;你对应采用的技术已有了较明确的方向&＃xff1b;你的数据结构和内容也有了充分的适应性。SAS在这时也向你提供了充分的可选择的技术手段&＃xff1a;回归分析方法等广泛的数理统计方法&＃xff1b;关联分析方法&＃xff1b;分类及聚类分析方法&＃xff1b;人工神经元网络&＃xff1b;决策树……等。

在你的数据挖掘中使用哪一种方法&＃xff0c;用SAS软件包中什么方法来实现&＃xff0c;这主要取决于你的数据集的特征和你要实现的目标。实际上这种选择也不一定是唯一的。好在SAS软件运行效率十分高&＃xff0c;你不妨多试几种方法&＃xff0c;从实践中选出最适合于你的方法。

5.评估与评价&＃xff08;Assess&＃xff09;

从上述过程中将会得出一系列的分析结果、模式或模型。同一个数据源可以利用多种数据分析方法和模型进行分析&＃xff0c;ASSESS 的目的之一就是从这些模型中自动找出一个最好的模型出来&＃xff0c;另外就是要对模型进行针对业务的解释和应用。

若能从模型中得出一个直接的结论当然很好。但更多的时候会得出对目标问题多侧面的描述。这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理&＃xff0c;实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在你的数据挖掘过程中&＃xff0c;就预见到最后要进行这样的选择的话&＃xff0c;那末你最好把这些平衡的指标尽可能的量化&＃xff0c;以利你综合抉择。

你提供的决策支持信息适用性如何&＃xff0c;这显然是十分重要的问题。除了在数据处理过程中SAS软件提供给你的许多检验参数外&＃xff0c;评价的办法之一是直接使用你原来建立模型的样板数据来进行检验。假如这一关就通不过的话&＃xff0c;那末你的决策支持信息的价值就不太大了。一般来说&＃xff0c;在这一步应得到较好的评价。这说明你确实从这批数据样本中挖掘出了符合实际的规律性。

另一种办法是另外找一批数据&＃xff0c;已知这些数据是反映客观实际的规律性的。这次的检验效果可能会比前一种差。差多少是要注意的。若是差到你所不能容忍程度&＃xff0c;那就要考虑第一次构建的样本数据是否具有充分的代表性&＃xff1b;或是模型本身不够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时&＃xff0c;那你的数据挖掘应得到很好的评价了。

三、Tom Khabaza 挖掘9律

Tom Khabaza是20世纪90年代著名的数据挖掘工具平台Clementine的早期核心开发者之一。他总结的挖掘9律在数据挖掘业界产生了广泛的反响和认同。本节将简要介绍挖掘9律的主要内容&＃xff0c;供感兴趣的数据分析师和数据分析爱好者参考。

业务目标律&＃xff08;Business Goals Law&＃xff09;

挖掘9律之第1律&＃xff0c;又称业务目标律&＃xff08;Business Goals Law&＃xff09;&＃xff0c;业务目标是所有数据挖掘解决方案的本源&＃xff08;Business Objectives Are The Origin Of Every Data Mining Solution&＃xff09;。数据挖掘不是为了挖掘而挖掘&＃xff0c;所有的数据挖掘都必须而且应该服务于特定的商业&＃xff08;业务&＃xff09;目的&＃xff0c;离开了业务目的和业务应用&＃xff0c;就没有数据挖掘的价值。正如Tom Khabaza所说的数据挖掘&＃xff0c;首先它不是技术&＃xff0c;而是流程&＃xff0c;其中存在着一个或多个业务目标&＃xff0c;没有业务目标&＃xff0c;就没有数据挖掘。

业务知识律&＃xff08;Business Knowledge Law

挖掘9律之第2律&＃xff0c;又称业务知识律&＃xff08;Business Knowledge Law&＃xff09;&＃xff0c;业务知识是数据挖掘每一步的核心&＃xff08;Business Knowledge Is Central to Every Step of The Data Mining Process&＃xff09;。数据挖掘的本质就是将业务知识、经验和洞察力与数据挖掘方法相结合&＃xff0c;从数据中发现有价值的东西。

数据准备律&＃xff08;Data Preparation Law&＃xff09;

挖掘9律之第3律&＃xff0c;又称数据准备律&＃xff08;Data Preparation Law&＃xff09;&＃xff0c;数据准备能让数据挖掘流程事半功倍&＃xff08;Data Preparation Is More Than Half of Every Data Mining Process&＃xff09;。数据准备在整个挖掘过程中所占用的时间常会超过一半&＃xff0c;它包括对数据的熟悉、清理、重组、转换等一系列过程&＃xff0c;其目的主要是让数据变动更干净&＃xff0c;更能真实体现业务背景&＃xff0c;更加容易被模型发现其隐含的有价值的商业信息和商业规律。

天下没有免费的午餐&＃xff08;There Is No Free Lunch for The DataMiner&＃xff09;

挖掘9律之第4律&＃xff0c;又称天下没有免费的午餐&＃xff08;There Is No Free Lunch for The DataMiner&＃xff09;&＃xff0c;只有通过实际验证才能发现给定应用的正确模型&＃xff08;The Right Model For A Given Application Can Only Be Discovered By Experiment&＃xff09;。一个模型无论搭建过程如何完美&＃xff0c;如果没有在实际数据中经过验证&＃xff0c;就没有任何价值和意义。

沃特金斯定律&＃xff08;Watkins&＃39;Law&＃xff09;

挖掘9律之第5律&＃xff0c;又称沃特金斯[2]定律&＃xff08;Watkins&＃39;Law&＃xff09;&＃xff0c;总会有模式存在&＃xff08;There Are Always Patterns&＃xff09;。只要有数据&＃xff0c;一定是可以从中发现有价值的信息的。

数据挖掘将业务领域的感知放大&＃xff08;Data Mining AmplifiesPerception In The Business Domain&＃xff09;

挖掘9律之第6律&＃xff0c;数据挖掘将业务领域的感知放大&＃xff08;Data Mining AmplifiesPerception In The Business Domain&＃xff09;。得益于数据挖掘的技术和流程&＃xff0c;使得数据中隐藏的知识和有价值的信息能被发现。

预测定律&＃xff08;Prediction Law&＃xff09;

挖掘9律之第7律&＃xff0c;又称预测定律&＃xff08;Prediction Law&＃xff09;&＃xff0c;预测将信息从局部扩展到整体&＃xff08;Prediction Increase Information Locally By Generalization&＃xff09;。数据挖掘使得我们可以透过已知的去发现&＃xff08;某些&＃xff09;未知的。这里提到的就是数据挖掘中常见的预测&＃xff08;响应、分类&＃xff09;模型的业务应用场景了。

价值定律&＃xff08;Value Law&＃xff09;

挖掘9律之第8律&＃xff0c;又称价值定律&＃xff08;Value Law&＃xff09;&＃xff0c;数据挖掘的结果的价值并不取决于模型的精度和稳定性&＃xff08;The Value of Data Mining Results Is Not Determined By The Accuracy or Stability of Predictive Models&＃xff09;。还是那句话&＃xff0c;模型的价值只能由其所满足的业务需求和商业应用价值来决定&＃xff0c;而不是由模型本身的精度和稳定性决定&＃xff1b;再精确的模型&＃xff0c;再稳定的模型&＃xff0c;如果不能解决业务问题&＃xff0c;如果不能带来业务的商业应用价值&＃xff0c;就是没有价值的。

变化定律&＃xff08;Change Law&＃xff09;

挖掘9律之第9律&＃xff0c;又称变化定律&＃xff08;Change Law&＃xff09;&＃xff0c;所有的模式都会受到变化&＃xff08;AllPatterns Are Subject to Change&＃xff09;。任何模型或者分析结论都是有时间限制的&＃xff0c;今天还是非常有价值的模型&＃xff0c;或许明天就过时了&＃xff0c;所有模型的维护和优化都非常重要。

参考文献&＃xff1a;

1、数据挖掘与数据化运营实战&＃xff1a;思路、方法、技巧与应用卢辉著

2、SAS数据挖掘白皮书 SAS公司

推荐阅读

client
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
rsa
采用IKE方式建立IPsec安全隧道

一、【组网和实验环境】按如上的接口ip先作配置，再作ipsec的相关配置，配置文本见文章最后本文实验采用的交换机是H3C模拟器，下载地址如 ... [详细]

蜡笔小新 2024-12-22 20:24:15
import
基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发

本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]

蜡笔小新 2024-12-22 15:31:28
bit
Sinatra与Ramaze：选择轻量级Ruby框架时的考量

在寻找轻量级Ruby Web框架的过程中，您可能会遇到Sinatra和Ramaze。两者都以简洁、轻便著称，但它们之间存在一些关键区别。本文将探讨这些差异，并提供详细的分析，帮助您做出最佳选择。 ... [详细]

蜡笔小新 2024-12-20 11:00:15
go
读书笔记：《工业互联网技术与实践》解析

本文探讨了当前技术发展趋势，特别是大数据和人工智能如何推动工业互联网的发展。文章分析了全球主要国家在工业互联网领域的进展，并展望了未来工业互联网技术的发展方向。 ... [详细]

蜡笔小新 2024-12-16 10:37:38
go
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
rsa
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
rsa
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
go
创邻科技成功举办Graph+X生态合作伙伴大会，30余家行业领军企业共聚杭州

9月22日，创邻科技在杭州举办“Graph+X”生态合作伙伴大会，汇聚了超过30家行业头部企业的50多位企业家和技术领袖，共同探讨图技术的前沿应用与发展前景。 ... [详细]

蜡笔小新 2024-12-20 16:56:32
go
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
go
数据集成策略：ETL与ELT架构对比及工具选择

随着企业信息化的深入发展，‘数据孤岛’问题日益突出，阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题，重点分析了ETL与ELT两种数据处理架构的特点及适用场景，为企业选择合适的ETL工具提供了指导。 ... [详细]

蜡笔小新 2024-12-05 17:37:33
go
掌握Python岗位，你需要了解的关键技能

最近，在社交平台脉脉上，一条关于Python岗位的消息引起了广泛关注。本文将探讨Python岗位的实际价值，并深入解析阿里巴巴等大公司在面试Python开发者时常见的问题。 ... [详细]

蜡笔小新 2024-12-04 16:31:13
go
大数据核心技术解析

本文深入探讨了大数据技术的关键领域，包括数据的收集、预处理、存储管理、以及分析挖掘等方面，旨在提供一个全面的技术框架理解。 ... [详细]

蜡笔小新 2024-12-03 12:31:21
go
最大互信息系数（Maximal Information Coefficient, MIC）及其应用

本文探讨了最大互信息系数（MIC）在评估基因间线性和非线性关系中的应用。与传统的互信息（Mutual Information, MI）相比，MIC在检测复杂关联方面表现出更高的精确度。 ... [详细]

蜡笔小新 2024-11-27 16:09:31
go
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31

涿州雨嫣舞蹈培训中心_144

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章