作者:豆腐心_suile | 来源:互联网 | 2023-09-17 17:33
数据挖掘期末复习提纲 什么是数据挖掘 Opinion1:
数据中的知识发现(KDD)
Opinion2:
是知识发现过程的一个基本步骤: 数据清理>数据集成>数据选择>数据变换>数据挖掘>模式评估>知识表示
广义定义:
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。 (数据源包括数据库、数据仓库、Web、其它信息存储库或动态地流入系统的数据)
可以挖掘什么样的数据?
数据库数据、数据仓库数据和事务数据
二元属性的邻近性度量 对于二元属性的列联表:
对称的二元相异性:
非对称的二元相异性:
非对称的二元相似性(又称Jaccard系数 ):
简单匹配系数: sm(i,j)=q+t/q+t+r+ssm(i,j)=q+t/q+t+r+s s m ( i , j ) = q + t / q + t + r + s
数值属性的相异性 闵可夫斯基距离
当h=1时,该式为曼哈顿距离
当h=2时,该式为欧几里得距离
当h➡∞时,该式为切比雪夫距离
数据预处理 数据预处理的目的:提高数据质量
(数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义)
数据预处理主要包括:数据清理、数据集成、数据归约和数据变换
数据清理 通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致来清理数据
缺失值的处理 忽略元组(缺少类标号时通常这么做) 人工填写缺失值(费时费力,且数据集较大时不可行) 使用一个全局常量填充缺失值(例如用’Unknown’替换所有缺失值,简单但不可靠) 使用属性的中心度量(如均值或中位数)填充缺失值(正常数据可以用均值,倾斜数据中最好使用中位数) 使用与给定元组属同一类的所有样本的属性均值或中位数(看不懂来问我) 使用最可能的值填充缺失值(回归、贝叶斯形式化方法) 分箱 分箱的目的:对数据进行局部光滑
基于等频划分的两种分箱方法 先排序后等分,保证每个箱中包含的值的数量相等
用箱均值光滑 将箱中每一个值替换为该箱中的均值 (用箱中位数光滑同理)
用箱边界光滑 给定箱中的最大和最小值被视为箱边界,将箱中每一个值都替换为最近的箱边界
等宽划分 每个分箱取值范围一样大
数据集成 将不同来源的数据进行集成处理,要注意采取措施避免集成时的冗余:例如代表同一概念的属性在不同的数据库中可能具有不同的名字,导致不一致和冗余
冗余和相关分析 分为标称数据的冗余和相关分析以及数值数据的冗余和相关分析
标称数据:卡方检验 Pearson卡方值公式: eie_i e i j_j j 是期望频度 书上方便理解的例子:
数值数据:相关系数 公式以及解释: 相关系数取值在-1到1之间,相关系数大于0,意味着A和B是正相关的,如果该值等于0,则A和B是独立的。
(注意!相关性并不蕴含因果关系!)
数值数据:协方差 协方差的公式: 协方差与相关系数的联系: (方差是协方差的特殊情况,即属性与自身的协方差)
数据归约 维规约:减少随机变量或属性的个数
数据压缩技术(小波变换和主成分分析) 属性子集选择(去掉不相关的属性) 属性构造(从原来的属性集导出更有用的小属性集)
数值规约:用替代的/较小的数据替换元数据
参数模型(回归和对数线性模型) 非参数模型(直方图、聚类、抽样、数据立方体聚集)
数据压缩
使用变换,以便得到原数据的归约或’压缩’表示。如果原数据能从压缩后的数据重构,称该数据归约为有损的 ,如果只能近似重构原数据,则称该数据归约为’有损的’.
数据变换 目的:将数据变换或统一成适合于挖掘的形式。
数据变换策略: 光滑:去掉数据中的噪声,包括分箱、回归和聚类。 属性构造:又称特征构造;由给定的属性构造新的属性并添加到属性集中,以帮助数据挖掘过程。 聚集:对数据进行汇总或聚集,如分类汇总、构造数据立方体。 规范化:详见下文。 离散化:将原始值用区间标签(如0-10,11-20,21-30)或概念标签(如youth,adult,senior)替换。 由标称数据产生的概念分层:如street,可以泛化到较高的概念层,比如city或country。 三种规范化变换数据 最小-最大规范化
可以将A的值映射到newnew n e w _ maxAmax_A m a x A 到newnew n e w _ minAmin_A m i n A 的区间上
特别地,当newnew n e w _ maxAmax_A m a x A =1,newnew n e w _ minAmin_A m i n A =0时,有公式:
z 分数规范化 减去均值除以标准差
小数定标规范化 公式如下:
其中j是使得max(∣v′i∣)<1max(|v&#39;i|) <1 m a x ( ∣ v ′ i ∣ ) < 1 的最小整数
注意&#xff1a;上述的分类并不互斥&#xff0c;例如&#xff0c;冗余数据的删除既是一种数据清理&#xff0c;又是一种数据归约。
数据仓库 什么是数据仓库 宽泛地讲&#xff1a;数据仓库是一种数据库&#xff0c;它与单位的操作数据库分别维护。 数据仓库系统允许将各种应用系统集成在一起&#xff0c;为统一的历史数据分析提供坚实的平台&#xff0c;对信息处理提供支持。
数据仓库的四个特征
操作数据库系统与数据仓库的区别 联机操作数据库的系统通常被称为联机事务处理&#xff08;OLTP&#xff09;系统 数据仓库系统被称为联机分析处理&#xff08;OLAP&#xff09;系统
二者的主要区别&#xff1a;
二者的其他区别&#xff1a;
多维数据模型 数据立方体 四维数据立方体&#xff1a;
数据立方体的方体格
多维数据模型的模式 星形模式
雪花模式&#xff08;对星形模式的一些维表进行规范化&#xff09;
事实星座模式&#xff08;允许事实表共享维表&#xff09;
典型的OLAP操作 上卷&#xff0c;下钻&#xff0c;切片和切块&#xff0c;转轴 &#xff08;记得看课堂作业&#xff09;
挖掘频繁项集 关联规则的度量 支持度和置信度公式&#xff1a; 联系&#xff1a;
Apriori算法 看课本p162和作业
FP树 看课本p168和作业
相关分析 提升度 公式
含义 提升度的值小于1&#xff0c;则A的出现和B的出现是负相关的&#xff0c;意味着一个出现可能导致另一个不出现&#xff1b; 提升度的值等于1&#xff0c;意味着A和B是独立的&#xff0c;即它们之间没有相关性&#xff1b; 提升度的值大于1&#xff0c;则A的出现和B的出现是正相关的&#xff0c;意味着一个出现可能蕴含着另一个的出现。
卡方分析 公式
期望值的求法 根据总量的比值分配
全置信度
最大置信度
Kulc度量
余弦度量
决策树归纳 信息增益 熵
划分之后的分区的熵
信息增益
计算信息增益的例子&#xff08;P218&#xff09; 对D中元组分类所需要的期望信息&#xff1a; 如果元组依据属性age进行划分&#xff0c;则对D中元组分类所需要的期望信息&#xff1a; 此种划分的信息增益&#xff1a;
增益率&#xff08;这个上课讲没讲过我也不知道…应该不考吧…&#xff09; 分裂信息&#xff1a; 增益率&#xff1a;
基尼指数
划分之后的分区的基尼指数
属性A的二元划分导致的不纯度降低 &#xff08;别忘了看看课堂作业&#xff09;
树的剪枝 先剪枝 提前停止树的构建的方法 例如&#xff1a;选取一定的阈值来决定是否对一个结点进行进一步的划分
后剪枝 对“完全生长”的树剪去子树的方法 例如&#xff1a;CART使用代价复杂度剪枝算法和C4.5采用的悲观剪枝算法
神经网络 看课本p263和课堂作业
聚类算法 什么是聚类分析&#xff1f; 聚类是把一个数据对象&#xff08;或观测&#xff09;划分成子集的过程。
对聚类分析的要求
总结&#xff1a;
K-均值、K-中心点聚类 课本p293&#xff0c;作业刚做过
凝聚和分裂 结合PPT
距离度量 其中&#xff0c;均值距离是先求组内平均&#xff0c;再计算距离&#xff1b;
平均距离是先一一计算距离&#xff0c;再求距离的平均
聚类质量的测定 外在方法&#xff1a;有基准可用的情况下。通过聚类精度和召回率测定 内在方法&#xff1a;没有基准可用时。
轮廓系数 轮廓系数是一种内在的聚类质量的测定度量。 轮廓系数的取值范围在-1和1之间。 轮廓系数越大&#xff0c;认为聚类的质量越高。