热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据挖掘概念与技术学习笔记(1)

很久以前就一直想好好了解下数据挖掘相关的知识,一直拖到现在。现在正处于大数据时代,数据挖掘有着广泛的应用前景。数据挖掘概念与技术.pdf1.什么是数据

        很久以前就一直想好好了解下数据挖掘相关的知识,一直拖到现在。现在正处于大数据时代,数据挖掘有着广泛的应用前景。数据挖掘概念与技术.pdf

1.什么是数据挖掘?其作用和意义是什么?

近年来互联网飞速发展,快速增长的海量数据收集,存放在大型数据库中。然而,虽然数据丰富,但信息贫乏,没有强有力的工具,理解它们已经远远超出了人的能力。数据挖掘就是从大量的数据中提取或"挖掘"知识,也叫知识挖掘。通过数据挖掘工具进行数据分析,发现重要的数据模式,将数据转换为知识。数据挖掘研究的目的开发有效的数据挖掘工具。

2.数据库知识发现的一般过程

(1)数据清理(消除噪音或不一致数据)

(2)数据集成(多种数据源可以组合在一起)

(3)数据选择(从数据库中提取与分析任务相关的数据)

(4)数据变换(数据变换或同一成适合数据挖掘的形式;如通过汇总或聚类操作)

(5)数据挖掘(基本步骤,使用智能方法提取数据模式)

(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)

(7)知识表示(使用可视化和知识表示技术,向用户提供数据挖掘的知识)


3.数据挖掘系统的主要组成部分

(1)数据仓库:一种多个异种数据源在单个站点以统一的模式组织存储,以支持管理决策。

(2)知识库:邻域知识,用于指导搜索,或评估结果模式的兴趣度。

(3)数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块组成,用于特征,关联,分类,聚类分析,演变或偏差分析。

(4)模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交换,以便将搜索聚焦在有趣的模式上。

4.模式兴趣度的客观度量

1)支持度

对于形如的关联规则,一种客观度量是规则的支持度。规则的支持度的表示满足规则的样本百分比。支持度是概率

,其中,表示同时包含X和Y的事务,如下式所示。

                                                                                                                                       

2)置信度

置信度是条件概率P(Y|X);即包含X的事务也包含Y事务的概率,如下式所示

                                                                                        


推荐阅读
  • 一份来自清华的数据分析笔记,请查收!
    之前发过很多数据分析的文章,收到不少好评,但也有一些困惑:入门数据分析该学哪些知识点?该看哪些书?是从Pyth ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 数据仓库、LODP、OLAP
    数据仓库:也称为企业数据仓库,是一种数据存储系统,它将来自于不同数据源的数据进行结构化数据聚合起来,用于业务智能领域的比较和分析 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了新款奇骏的两个让人上瘾的功能,分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测,探讨了这两个新增功能的使用体验和优势。此外,还介绍了新款奇骏的其他配置和改进,如增加的座椅和驾驶辅助系统,以及内饰的舒适性提升。对于喜欢音响的消费者来说,BOSE音响的升级也是一个亮点。最后,文章提到了BOSE音响的数字还原能力,以及7座版无法配备BOSE音响的原因。 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)...
    主讲人网神(新浪微博:豆角茄子麻酱凉面)网神(66707180)18:57:18大家好,今天我们讲一下第14章combiningmodel ... [详细]
  • 应用场景当遇到数据分类,聚类,预测等场景问题,普通的SQL方法无法解决,需要借助算法这件武器,比如聚类算法,分类算法,预测算法等等,但是手动去研究一个算法比较吃力,有没有那种工具, ... [详细]
  • 我一直都有记录信息的习惯,不知是从什么时候开始,大约是在工作后不久。如今还真有点庆幸从那时开始记了点东西,当然是电子版的,写 ... [详细]
  • 绝对时间:absTime相对时间:百分比%timeIDLE是空闲任务。RUN_Time_State:port。。。()初始化一个外设提供时基单元具体初始化要自己操作这个定时器的分辨 ... [详细]
  • NetBPM的安装还是比较简单的,有比较详细的文档。1.当然是先下载运行程序了,netbpm-0.8.3.1.zip,官方网站ÿ ... [详细]
author-avatar
aRuis
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有