热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据挖掘期末复习提纲(2021.7.3)

数据挖掘期末复习提纲什么是数据挖掘Opinion1:数据中的知识发现(KDD)Opinion2:是知识发现过程的一个基本

数据挖掘期末复习提纲


什么是数据挖掘

Opinion1:


数据中的知识发现(KDD)


Opinion2:


是知识发现过程的一个基本步骤:
数据清理>数据集成>数据选择>数据变换>数据挖掘>模式评估>知识表示


广义定义:


数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
(数据源包括数据库、数据仓库、Web、其它信息存储库或动态地流入系统的数据)


可以挖掘什么样的数据?


数据库数据、数据仓库数据和事务数据



二元属性的邻近性度量


对于二元属性的列联表:

对称的二元相异性:

非对称的二元相异性:

非对称的二元相似性(又称Jaccard系数):

简单匹配系数:
sm(i,j)=q+t/q+t+r+ssm(i,j)=q+t/q+t+r+ssm(i,j)=q+t/q+t+r+s


数值属性的相异性


闵可夫斯基距离

当h=1时,该式为曼哈顿距离

当h=2时,该式为欧几里得距离

当h➡∞时,该式为切比雪夫距离


数据预处理

数据预处理的目的:提高数据质量

(数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义)

数据预处理主要包括:数据清理、数据集成、数据归约和数据变换


数据清理


通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致来清理数据



缺失值的处理


  • 忽略元组(缺少类标号时通常这么做)
  • 人工填写缺失值(费时费力,且数据集较大时不可行)
  • 使用一个全局常量填充缺失值(例如用’Unknown’替换所有缺失值,简单但不可靠)
  • 使用属性的中心度量(如均值或中位数)填充缺失值(正常数据可以用均值,倾斜数据中最好使用中位数)
  • 使用与给定元组属同一类的所有样本的属性均值或中位数(看不懂来问我)
  • 使用最可能的值填充缺失值(回归、贝叶斯形式化方法)

分箱

分箱的目的:对数据进行局部光滑


基于等频划分的两种分箱方法

先排序后等分,保证每个箱中包含的值的数量相等



用箱均值光滑

将箱中每一个值替换为该箱中的均值
(用箱中位数光滑同理)



用箱边界光滑

给定箱中的最大和最小值被视为箱边界,将箱中每一个值都替换为最近的箱边界



等宽划分

每个分箱取值范围一样大



数据集成


将不同来源的数据进行集成处理,要注意采取措施避免集成时的冗余:例如代表同一概念的属性在不同的数据库中可能具有不同的名字,导致不一致和冗余



冗余和相关分析

分为标称数据的冗余和相关分析以及数值数据的冗余和相关分析


标称数据:卡方检验

Pearson卡方值公式:
在这里插入图片描述
eie_ieij_jj是期望频度
在这里插入图片描述
书上方便理解的例子:
在这里插入图片描述


数值数据:相关系数

公式以及解释:
在这里插入图片描述
相关系数取值在-1到1之间,相关系数大于0,意味着A和B是正相关的,如果该值等于0,则A和B是独立的。

(注意!相关性并不蕴含因果关系!)


数值数据:协方差

协方差的公式:
在这里插入图片描述
协方差与相关系数的联系:
在这里插入图片描述
(方差是协方差的特殊情况,即属性与自身的协方差)


数据归约

维规约:减少随机变量或属性的个数


数据压缩技术(小波变换和主成分分析)
属性子集选择(去掉不相关的属性)
属性构造(从原来的属性集导出更有用的小属性集)


数值规约:用替代的/较小的数据替换元数据


参数模型(回归和对数线性模型)
非参数模型(直方图、聚类、抽样、数据立方体聚集)


数据压缩


使用变换,以便得到原数据的归约或’压缩’表示。如果原数据能从压缩后的数据重构,称该数据归约为有损的,如果只能近似重构原数据,则称该数据归约为’有损的’.



数据变换

目的:将数据变换或统一成适合于挖掘的形式。


数据变换策略:


  • 光滑:去掉数据中的噪声,包括分箱、回归和聚类。
  • 属性构造:又称特征构造;由给定的属性构造新的属性并添加到属性集中,以帮助数据挖掘过程。
  • 聚集:对数据进行汇总或聚集,如分类汇总、构造数据立方体。
  • 规范化:详见下文。
  • 离散化:将原始值用区间标签(如0-10,11-20,21-30)或概念标签(如youth,adult,senior)替换。
  • 由标称数据产生的概念分层:如street,可以泛化到较高的概念层,比如city或country。

三种规范化变换数据


最小-最大规范化

可以将A的值映射到newnewnew_maxAmax_AmaxAnewnewnew_minAmin_AminA的区间上

特别地,当newnewnew_maxAmax_AmaxA=1,newnewnew_minAmin_AminA=0时,有公式:


z 分数规范化

减去均值除以标准差


小数定标规范化

公式如下:

其中j是使得max(∣v′i∣)<1max(|v&#39;i|) <1max(vi)<1的最小整数

注意&#xff1a;上述的分类并不互斥&#xff0c;例如&#xff0c;冗余数据的删除既是一种数据清理&#xff0c;又是一种数据归约。


数据仓库


什么是数据仓库


宽泛地讲&#xff1a;数据仓库是一种数据库&#xff0c;它与单位的操作数据库分别维护。
数据仓库系统允许将各种应用系统集成在一起&#xff0c;为统一的历史数据分析提供坚实的平台&#xff0c;对信息处理提供支持。



数据仓库的四个特征


操作数据库系统与数据仓库的区别


联机操作数据库的系统通常被称为联机事务处理&#xff08;OLTP&#xff09;系统
数据仓库系统被称为联机分析处理&#xff08;OLAP&#xff09;系统



二者的主要区别&#xff1a;


二者的其他区别&#xff1a;


多维数据模型


数据立方体

四维数据立方体&#xff1a;


数据立方体的方体格


多维数据模型的模式


星形模式


雪花模式&#xff08;对星形模式的一些维表进行规范化&#xff09;


事实星座模式&#xff08;允许事实表共享维表&#xff09;


典型的OLAP操作


上卷&#xff0c;下钻&#xff0c;切片和切块&#xff0c;转轴


&#xff08;记得看课堂作业&#xff09;


挖掘频繁项集


关联规则的度量

支持度和置信度公式&#xff1a;
在这里插入图片描述
联系&#xff1a;
在这里插入图片描述


Apriori算法

看课本p162和作业


FP树

看课本p168和作业


相关分析


提升度


公式

在这里插入图片描述


含义


提升度的值小于1&#xff0c;则A的出现和B的出现是负相关的&#xff0c;意味着一个出现可能导致另一个不出现&#xff1b;
提升度的值等于1&#xff0c;意味着A和B是独立的&#xff0c;即它们之间没有相关性&#xff1b;
提升度的值大于1&#xff0c;则A的出现和B的出现是正相关的&#xff0c;意味着一个出现可能蕴含着另一个的出现。



卡方分析


公式

在这里插入图片描述


期望值的求法

根据总量的比值分配
在这里插入图片描述


全置信度

在这里插入图片描述


最大置信度

在这里插入图片描述


Kulc度量

在这里插入图片描述


余弦度量

在这里插入图片描述


决策树归纳


信息增益


在这里插入图片描述


划分之后的分区的熵

在这里插入图片描述


信息增益

在这里插入图片描述


计算信息增益的例子&#xff08;P218&#xff09;

在这里插入图片描述
对D中元组分类所需要的期望信息&#xff1a;
在这里插入图片描述
如果元组依据属性age进行划分&#xff0c;则对D中元组分类所需要的期望信息&#xff1a;
在这里插入图片描述
此种划分的信息增益&#xff1a;
在这里插入图片描述


增益率&#xff08;这个上课讲没讲过我也不知道…应该不考吧…&#xff09;

分裂信息&#xff1a;

增益率&#xff1a;
在这里插入图片描述


基尼指数

在这里插入图片描述


划分之后的分区的基尼指数

在这里插入图片描述


属性A的二元划分导致的不纯度降低

在这里插入图片描述
&#xff08;别忘了看看课堂作业&#xff09;


树的剪枝


先剪枝


提前停止树的构建的方法
例如&#xff1a;选取一定的阈值来决定是否对一个结点进行进一步的划分



后剪枝


对“完全生长”的树剪去子树的方法
例如&#xff1a;CART使用代价复杂度剪枝算法和C4.5采用的悲观剪枝算法



神经网络

看课本p263和课堂作业


聚类算法


什么是聚类分析&#xff1f;


聚类是把一个数据对象&#xff08;或观测&#xff09;划分成子集的过程。



对聚类分析的要求

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结&#xff1a;

在这里插入图片描述


K-均值、K-中心点聚类

课本p293&#xff0c;作业刚做过


凝聚和分裂

结合PPT


距离度量

在这里插入图片描述
其中&#xff0c;均值距离是先求组内平均&#xff0c;再计算距离&#xff1b;

平均距离是先一一计算距离&#xff0c;再求距离的平均

在这里插入图片描述


聚类质量的测定


外在方法&#xff1a;有基准可用的情况下。通过聚类精度和召回率测定
内在方法&#xff1a;没有基准可用时。



轮廓系数


轮廓系数是一种内在的聚类质量的测定度量。
轮廓系数的取值范围在-1和1之间。
轮廓系数越大&#xff0c;认为聚类的质量越高。



推荐阅读
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 本文详细介绍了 Java 网站开发的相关资源和步骤,包括常用网站、开发环境和框架选择。 ... [详细]
  • 2020年9月15日,Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性,包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]
  • 近期,微信公众平台上的HTML5游戏引起了广泛讨论,预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏,作为一名HTML5技术的倡导者,分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]
  • 如何撰写数据分析师(包括转行者)的面试简历?
    CDA数据分析师团队出品,作者:徐杨老师,编辑:Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历,特别是对于转行者。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 优化后的标题:深入探讨网关安全:将微服务升级为OAuth2资源服务器的最佳实践
    本文深入探讨了如何将微服务升级为OAuth2资源服务器,以订单服务为例,详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖,并配置Spring Security以实现对微服务的保护。通过这一过程,不仅增强了系统的安全性,还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践,包括如何配置OAuth2客户端和资源服务器,以及如何处理常见的安全问题和错误。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • 优化后的标题:利用 jQuery 实现高效树形结构元素选择与操作
    在Web前端开发中,DOM结构本质上是一种树形结构。通过优化后的jQuery选择器,可以高效地选择和操作DOM树中的节点。这些选择器不仅简化了代码编写,还提高了性能和可维护性。本文将详细介绍如何利用jQuery的树形选择器实现高效的元素选择与操作。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 2016-2017学年《网络安全实战》第三次作业
    2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中,网络踩点旨在通过公开渠道收集目标信息,为后续的安全测试奠定基础,而不涉及实际的入侵行为。 ... [详细]
author-avatar
豆腐心_suile
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有