当前位置: 开发笔记 > 编程语言 > 正文

数据挖掘期末复习提纲（2021.7.3）

作者：豆腐心_suile | 来源：互联网 | 2023-09-17 17:33

数据挖掘期末复习提纲什么是数据挖掘Opinion1：数据中的知识发现（KDD）Opinion2：是知识发现过程的一个基本

数据挖掘期末复习提纲

什么是数据挖掘

Opinion1&＃xff1a;

数据中的知识发现&＃xff08;KDD&＃xff09;

Opinion2&＃xff1a;

是知识发现过程的一个基本步骤&＃xff1a;
数据清理>数据集成>数据选择>数据变换>数据挖掘>模式评估>知识表示

广义定义&＃xff1a;

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
&＃xff08;数据源包括数据库、数据仓库、Web、其它信息存储库或动态地流入系统的数据&＃xff09;

可以挖掘什么样的数据&＃xff1f;

数据库数据、数据仓库数据和事务数据

二元属性的邻近性度量

对于二元属性的列联表&＃xff1a;

对称的二元相异性&＃xff1a;

非对称的二元相异性&＃xff1a;

非对称的二元相似性(又称Jaccard系数)&＃xff1a;

简单匹配系数&＃xff1a;
$s m (i, j) &＃61; q &＃43; t / q &＃43; t &＃43; r &＃43; s$

数值属性的相异性

闵可夫斯基距离

当h&＃61;1时&＃xff0c;该式为曼哈顿距离

当h&＃61;2时&＃xff0c;该式为欧几里得距离

当h➡∞时&＃xff0c;该式为切比雪夫距离

数据预处理

数据预处理的目的&＃xff1a;提高数据质量

&＃xff08;数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义&＃xff09;

数据预处理主要包括&＃xff1a;数据清理、数据集成、数据归约和数据变换

数据清理

通过填写缺失值、光滑噪声数据、识别或删除离群点并解决不一致来清理数据

缺失值的处理

忽略元组&＃xff08;缺少类标号时通常这么做&＃xff09;
人工填写缺失值&＃xff08;费时费力&＃xff0c;且数据集较大时不可行&＃xff09;
使用一个全局常量填充缺失值&＃xff08;例如用’Unknown’替换所有缺失值&＃xff0c;简单但不可靠&＃xff09;
使用属性的中心度量&＃xff08;如均值或中位数&＃xff09;填充缺失值&＃xff08;正常数据可以用均值&＃xff0c;倾斜数据中最好使用中位数&＃xff09;
使用与给定元组属同一类的所有样本的属性均值或中位数&＃xff08;看不懂来问我&＃xff09;
使用最可能的值填充缺失值&＃xff08;回归、贝叶斯形式化方法&＃xff09;

分箱

分箱的目的&＃xff1a;对数据进行局部光滑

基于等频划分的两种分箱方法

先排序后等分&＃xff0c;保证每个箱中包含的值的数量相等

用箱均值光滑

将箱中每一个值替换为该箱中的均值
&＃xff08;用箱中位数光滑同理&＃xff09;

用箱边界光滑

给定箱中的最大和最小值被视为箱边界&＃xff0c;将箱中每一个值都替换为最近的箱边界

等宽划分

每个分箱取值范围一样大

数据集成

将不同来源的数据进行集成处理&＃xff0c;要注意采取措施避免集成时的冗余&＃xff1a;例如代表同一概念的属性在不同的数据库中可能具有不同的名字&＃xff0c;导致不一致和冗余

冗余和相关分析

分为标称数据的冗余和相关分析以及数值数据的冗余和相关分析

标称数据&＃xff1a;卡方检验

Pearson卡方值公式&＃xff1a;
在这里插入图片描述
$e_i$ $_j$ 是期望频度

书上方便理解的例子&＃xff1a;

数值数据&＃xff1a;相关系数

公式以及解释&＃xff1a;
在这里插入图片描述
相关系数取值在-1到1之间&＃xff0c;相关系数大于0&＃xff0c;意味着A和B是正相关的&＃xff0c;如果该值等于0&＃xff0c;则A和B是独立的。

&＃xff08;注意&＃xff01;相关性并不蕴含因果关系&＃xff01;&＃xff09;

数值数据&＃xff1a;协方差

协方差的公式&＃xff1a;
在这里插入图片描述
协方差与相关系数的联系&＃xff1a;

&＃xff08;方差是协方差的特殊情况&＃xff0c;即属性与自身的协方差&＃xff09;

数据归约

维规约&＃xff1a;减少随机变量或属性的个数

数据压缩技术&＃xff08;小波变换和主成分分析&＃xff09;
属性子集选择&＃xff08;去掉不相关的属性&＃xff09;
属性构造&＃xff08;从原来的属性集导出更有用的小属性集&＃xff09;

数值规约&＃xff1a;用替代的/较小的数据替换元数据

参数模型&＃xff08;回归和对数线性模型&＃xff09;
非参数模型&＃xff08;直方图、聚类、抽样、数据立方体聚集&＃xff09;

数据压缩

使用变换&＃xff0c;以便得到原数据的归约或’压缩’表示。如果原数据能从压缩后的数据重构&＃xff0c;称该数据归约为有损的&＃xff0c;如果只能近似重构原数据&＃xff0c;则称该数据归约为’有损的’.

数据变换

目的&＃xff1a;将数据变换或统一成适合于挖掘的形式。

数据变换策略&＃xff1a;

光滑&＃xff1a;去掉数据中的噪声&＃xff0c;包括分箱、回归和聚类。
属性构造&＃xff1a;又称特征构造&＃xff1b;由给定的属性构造新的属性并添加到属性集中&＃xff0c;以帮助数据挖掘过程。
聚集&＃xff1a;对数据进行汇总或聚集&＃xff0c;如分类汇总、构造数据立方体。
规范化&＃xff1a;详见下文。
离散化&＃xff1a;将原始值用区间标签&＃xff08;如0-10&＃xff0c;11-20&＃xff0c;21-30&＃xff09;或概念标签&＃xff08;如youth&＃xff0c;adult&＃xff0c;senior&＃xff09;替换。
由标称数据产生的概念分层&＃xff1a;如street&＃xff0c;可以泛化到较高的概念层&＃xff0c;比如city或country。

三种规范化变换数据

最小-最大规范化

可以将A的值映射到 $n e w$ _ $max_A$ 到 $n e w$ _ $min_A$ 的区间上

特别地&＃xff0c;当 $n e w$ _ $max_A$ &＃61;1, $n e w$ _ $min_A$ &＃61;0时&＃xff0c;有公式&＃xff1a;

z 分数规范化

减去均值除以标准差

小数定标规范化

公式如下&＃xff1a;

其中j是使得 $m a x (∣ v^{'} i ∣) < 1$ 的最小整数

注意&＃xff1a;上述的分类并不互斥&＃xff0c;例如&＃xff0c;冗余数据的删除既是一种数据清理&＃xff0c;又是一种数据归约。

数据仓库

什么是数据仓库

宽泛地讲&＃xff1a;数据仓库是一种数据库&＃xff0c;它与单位的操作数据库分别维护。
数据仓库系统允许将各种应用系统集成在一起&＃xff0c;为统一的历史数据分析提供坚实的平台&＃xff0c;对信息处理提供支持。

数据仓库的四个特征

操作数据库系统与数据仓库的区别

联机操作数据库的系统通常被称为联机事务处理&＃xff08;OLTP&＃xff09;系统
数据仓库系统被称为联机分析处理&＃xff08;OLAP&＃xff09;系统

二者的主要区别&＃xff1a;

二者的其他区别&＃xff1a;

多维数据模型

数据立方体

四维数据立方体&＃xff1a;

数据立方体的方体格

多维数据模型的模式

星形模式

雪花模式&＃xff08;对星形模式的一些维表进行规范化&＃xff09;

事实星座模式&＃xff08;允许事实表共享维表&＃xff09;

典型的OLAP操作

上卷&＃xff0c;下钻&＃xff0c;切片和切块&＃xff0c;转轴

&＃xff08;记得看课堂作业&＃xff09;

挖掘频繁项集

关联规则的度量

支持度和置信度公式&＃xff1a;
在这里插入图片描述
联系&＃xff1a;

Apriori算法

看课本p162和作业

FP树

看课本p168和作业

决策树归纳

信息增益

熵

在这里插入图片描述

划分之后的分区的熵

在这里插入图片描述

信息增益

在这里插入图片描述

计算信息增益的例子&＃xff08;P218&＃xff09;

在这里插入图片描述
对D中元组分类所需要的期望信息&＃xff1a;

如果元组依据属性age进行划分&＃xff0c;则对D中元组分类所需要的期望信息&＃xff1a;

此种划分的信息增益&＃xff1a;

增益率&＃xff08;这个上课讲没讲过我也不知道…应该不考吧…&＃xff09;

分裂信息&＃xff1a;

增益率&＃xff1a;
在这里插入图片描述

基尼指数

在这里插入图片描述

划分之后的分区的基尼指数

在这里插入图片描述

属性A的二元划分导致的不纯度降低

在这里插入图片描述
&＃xff08;别忘了看看课堂作业&＃xff09;

树的剪枝

先剪枝

提前停止树的构建的方法
例如&＃xff1a;选取一定的阈值来决定是否对一个结点进行进一步的划分

后剪枝

对“完全生长”的树剪去子树的方法
例如&＃xff1a;CART使用代价复杂度剪枝算法和C4.5采用的悲观剪枝算法

神经网络

看课本p263和课堂作业

聚类算法

什么是聚类分析&＃xff1f;

聚类是把一个数据对象&＃xff08;或观测&＃xff09;划分成子集的过程。

对聚类分析的要求

在这里插入图片描述

总结&＃xff1a;

在这里插入图片描述

K-均值、K-中心点聚类

课本p293&＃xff0c;作业刚做过

凝聚和分裂

结合PPT

距离度量

在这里插入图片描述
其中&＃xff0c;均值距离是先求组内平均&＃xff0c;再计算距离&＃xff1b;

平均距离是先一一计算距离&＃xff0c;再求距离的平均

在这里插入图片描述

聚类质量的测定

外在方法&＃xff1a;有基准可用的情况下。通过聚类精度和召回率测定
内在方法&＃xff1a;没有基准可用时。

轮廓系数

轮廓系数是一种内在的聚类质量的测定度量。
轮廓系数的取值范围在-1和1之间。
轮廓系数越大&＃xff0c;认为聚类的质量越高。

推荐阅读

tree
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
char
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
php
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
const
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
const
微信平台上的HTML5游戏开发心得

近期，微信公众平台上的HTML5游戏引起了广泛讨论，预示着HTML5游戏将迎来新的发展机遇。磊友科技的赵霏，作为一名HTML5技术的倡导者，分享了他在微信平台上开发HTML5游戏的经验和见解。 ... [详细]

蜡笔小新 2024-11-13 16:56:47
const
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
list
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
list
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
php
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
php
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
php
优化后的标题：利用 jQuery 实现高效树形结构元素选择与操作

在Web前端开发中，DOM结构本质上是一种树形结构。通过优化后的jQuery选择器，可以高效地选择和操作DOM树中的节点。这些选择器不仅简化了代码编写，还提高了性能和可维护性。本文将详细介绍如何利用jQuery的树形选择器实现高效的元素选择与操作。 ... [详细]

蜡笔小新 2024-11-06 10:56:26
list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
list
2016-2017学年《网络安全实战》第三次作业

2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中，网络踩点旨在通过公开渠道收集目标信息，为后续的安全测试奠定基础，而不涉及实际的入侵行为。 ... [详细]

蜡笔小新 2024-11-04 13:00:16

豆腐心_suile

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

数据挖掘期末复习提纲（2021.7.3）