热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

数据挖掘的咽喉(上)数据处理被人忽视的核心环节

(作者:明博智创(北京)软件技术有限公司分析师宫艳琢)(一)闲谈时间好快,毕业正两年有余,依稀记得2012年春节时在火车站买票时候的挣扎情景,我运气不佳,

(作者:明博智创(北京)软件技术有限公司分析师宫艳琢)(一)闲谈时间好快,毕业正两年有余,依稀记得2012年春节时在火车站买票时候的挣扎情景,我运气不佳,

2 也要让前两名和其他名次间拉开差距。

第一种方法:

按照以上两个要求来看,第一种方法绝对不可取,因为这和直接计算成绩是没太大差异的,在这里面体现不出来博尔特的9.58S有多么神奇,博尔特和盖伊相差0.13S,盖伊和鲍威尔也相差0.13S,那么这两个0.13S在数据处理后是否会是同样的差异呢?绝对不可以,前一个0.13S的差距更大,在接近极限的时候,哪怕破纪录0.01S都是很大的成就,所以方法一不满足条件,无法反应出博尔特的超群实力。

第二种方法:

同样的问题,这种方法仍然是线性的,缺点和第一种相同

第三种方法:

满足了第二个条件,至于第一个条件,我认为勉强满足,这个评分没有反映出两个0.13S之间的巨大差别。而且和第二种一样,评分有负值。但是仍然不失为合格的评分方法。

第四种方法:

满足两个条件,较好地将成绩分为三档,从评分可以看出博尔特自己一个档次,而且优势巨大,盖伊和博尔特差距不小,但是领先别人也很多,至于其他人,完全和其他田径比赛的100m没有差异,理当归为一个档次。

自定义评分方法缺点:这种一般会达到执行人的目的,但是公式是主观的,容易受到别人质疑和挑战,这些问题往往在技术上不能回答,需要你在业务用超强的解释能力让别人接受这公式,我试过,不容易被接受。

(三)总结

上面针对一个田径比赛的成绩做了成绩的评价,来反映成绩数字背后显示的运动员的竞技水平,我想说,其实数字是一种工具,我们要想好好利用,就一定要结合实际,要想让数据创造更大的价值,就要对数据处理方法精益求精。同样的数据如果是用于别的分析,可能数据处理会完全不同,所以数据处理方法是字段含义和数值共同决定的。

现在每个企业都知道数据挖掘的意义,而更多地企业开始对挖掘软件和挖掘算法着迷,很少有企业对自身数据的完备性、完整度等进行过考虑,数据挖掘是有效的,但是这是建立在良好的数据质量基础上的。

这里有一个比喻可以帮助大家理解各环节的利害关系。

l比喻 数据挖掘就像做菜

数据库就是菜市场:

当然菜市场有好有坏,有的数据库是杂乱无章的,那么这对数据的抽取和数据检验就增加了难度,而如果想成为优秀的数据库,那么必须要模仿井然有序、菜品罗列清楚的菜市场。

数据处理就是洗菜、切菜

在通常看来,做菜最重要的一步无疑是在最后一步的炒菜,但是当菜量变得不同后,情况就有改变,想象一下在10000人吃饭的食堂里,每天的洗菜和切菜就变得尤为重要。这一步骤也直接决定了最后这道菜评价的上限,如果工作出色,那么下一步的工作会有发挥的余地,如果这一步骤完成的差,那么下一步就会受极大影响,很多名厨在做菜的时候一般都自己来亲自切菜也是这个道理。

再说一个事实,,各位就会轻易地理解洗菜、切菜多么地重要了,一般情况下集体食堂的菜都做的不好吃,特别是就连一般的宫保鸡丁、地三鲜也做得不好吃,你真的认为厨师差到那个程度,有人注意到大学食堂里面每道菜都有那么多的胡萝卜和黄瓜吗?事实就是一般的大型集体食堂无法完成比较高质量的切菜、洗菜工作。

挖掘算法就是炒菜

在如今的大数据背景下,人们越来越关注挖掘算法,好奇这些被天才们创造出来的巧夺天工的算法究竟会给企业带来什么革命性的创新。但是这一步骤也是全局中对执行人要求最高的,并非谁都能胜任,也因为大家无法胜任,所以对这一部分充满了好奇,充满了期望。

在前面的步骤封装后,其实挖掘算法的选择能够体现分析师的水平和战略眼光。首先我给出近今年最受欢迎的十大数据挖掘算法,感兴趣的同学可以自行查找资料,我在下一期将会抽选几个讲一下算法的适用环境和优缺点。

【*关于数据处理举例*】

这是一个开放式的方法举例,感兴趣的同学可以在下面回复你认为更好的评价方式,切忌评价目的是:

体现出成绩的含金量(9.58和9.84那天差地别的区别要体现出来,9.71也是优秀的成绩。)

体现出前几名和后面选手的差异,总之,还是开放的,希望大家贴出自己的处理方式,也让我学习一下。


本文出自 “在数据中挖掘价值” 博客,请务必保留此出处

推荐阅读
  • 利用决策树预测NBA比赛胜负的Python数据挖掘实践
    本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据,结合《Python数据挖掘入门与实践》一书中的方法,展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]
  • 聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法,其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]
  • 智能全栈云风暴:AI引领的企业转型之路
    当提及AI,人们脑海中常浮现的是天才少年独自编写算法,瞬间点亮机器人的双眼。然而,真正的AI革命正由大型企业和机构推动,它们利用全栈全场景AI技术,实现数字化与智能化的深度转型。 ... [详细]
  • 本文深入探讨了数据挖掘领域内的十个经典算法,包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础,也在实践中展现出强大的应用价值。 ... [详细]
  • 本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程,重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]
  • 本文介绍了Java并发库中的阻塞队列(BlockingQueue)及其典型应用场景。通过具体实例,展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递,并结合线程池和原子类优化性能。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 题目描述:给定n个半开区间[a, b),要求使用两个互不重叠的记录器,求最多可以记录多少个区间。解决方案采用贪心算法,通过排序和遍历实现最优解。 ... [详细]
  • 深入理解C++中的KMP算法:高效字符串匹配的利器
    本文详细介绍C++中实现KMP算法的方法,探讨其在字符串匹配问题上的优势。通过对比暴力匹配(BF)算法,展示KMP算法如何利用前缀表优化匹配过程,显著提升效率。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文探讨如何设计一个安全的加密和验证算法,确保生成的密码具有高随机性和低重复率,并提供相应的验证机制。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 在给定的数组中,除了一个数字外,其他所有数字都是相同的。任务是找到这个唯一的不同数字。例如,findUniq([1, 1, 1, 2, 1, 1]) 返回 2,findUniq([0, 0, 0.55, 0, 0]) 返回 0.55。 ... [详细]
author-avatar
猪的快乐旅途_278
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有