国科大学习资料数据挖掘（刘莹）第六章习题及参考答案

作者：-不想醒来-县 | 来源：互联网 | 2023-06-08 13:48

国科大学习资料–数据挖掘（刘莹）–第六章习题及参考答案国科大学习资料–数据挖掘（刘莹）–第六章习题及参考答案国科大学习资料–数据挖掘（刘莹）–第六章习题及参考答案第6章离群点

国科大学习资料–数据挖掘（刘莹）–第六章习题及参考答案

第 6 章离群点挖掘
6.1 为什么离群点挖掘是重要的？
答: 离群点是指与大部分其它对象不同的对象，在数据的散布图中，它们远离其它数据点，其属性值显著地偏离期望的或常见的属性值。(1) 因为离群点可能是度量或执行错误所导致的，例如相对少的离群点可能扭曲一组值的均值和标准差，或者改变聚类算法产生的簇的集合。( 2) 因为离群点本身可能是非常重要的，隐藏着重要的信息，在欺诈检测，入侵检测等方面有着广泛的应用。所以离群点挖掘是非常重要的。

6.2 讨论基于如下方法的离群点检测方法潜在的时间复杂度：使用基于聚类的、基于距离的和基于密度的方法。不需要专门技术知识，而是关注每种方法的基本计算需求，如计算每个对象的密度的时间需求。
答：如果使用 K-means 算法，它的时间复杂度就是O(n) ，一般基于邻近度和基于密度的算
法的时间复杂度都是O(n2 ) ，但是对于低维数据，使用专门的数据结构，如树或者 k- d

树，可以把基于邻近度的算法的时间复杂度降低到O(n log n) ，而对基于密度的算法来说，如果使用基于网格的算法，则可以把时间复杂度降低到O(n) ，但这种方法不太精确而且也是用于低维数据。

6.3 许多用于离群点检测的统计检验方法是

推荐阅读

算法
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
机器学习
机器学习与数据挖掘：基于Filter的特征选择——聚焦法

聚焦法是一种采用穷尽搜索策略的Filter型特征选择方法，其核心在于寻找能有效区分不同样本的最小特征集合。此方法的评估标准主要依赖于一致性测量。 ... [详细]

蜡笔小新 2024-12-11 15:12:58
人工智能
智能全栈云风暴：AI引领的企业转型之路

当提及AI，人们脑海中常浮现的是天才少年独自编写算法，瞬间点亮机器人的双眼。然而，真正的AI革命正由大型企业和机构推动，它们利用全栈全场景AI技术，实现数字化与智能化的深度转型。 ... [详细]

蜡笔小新 2024-12-09 17:35:15
机器学习
数据挖掘领域的十大重要算法解析

本文深入探讨了数据挖掘领域内的十个经典算法，包括但不限于C4.5决策树、K-Means聚类、支持向量机等。这些算法不仅在理论上有深厚的数学基础，也在实践中展现出强大的应用价值。 ... [详细]

蜡笔小新 2024-12-07 18:26:46
机器学习
数据挖掘技术及其应用流程综述

本文探讨了数据挖掘技术的发展及其在大数据环境下的应用流程，重点介绍了统计学、在线分析处理、信息检索、机器学习、专家系统和模式识别等领域的最新进展。 ... [详细]

蜡笔小新 2024-12-03 18:32:10
算法
C++实现经典排序算法

本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出，帮助读者全面了解这些排序方法的特点。 ... [详细]

蜡笔小新 2024-12-27 19:25:14
算法
使用动态规划算法求解0-1背包问题

本文介绍如何利用动态规划算法解决经典的0-1背包问题。通过具体实例和代码实现，详细解释了在给定容量的背包中选择若干物品以最大化总价值的过程。 ... [详细]

蜡笔小新 2024-12-27 19:17:15
算法
深入理解设计模式与七大原则

本文详细探讨了Java中的24种设计模式及其应用，并介绍了七大面向对象设计原则。通过创建型、结构型和行为型模式的分类，帮助开发者更好地理解和应用这些模式，提升代码质量和可维护性。 ... [详细]

蜡笔小新 2024-12-27 19:10:10
算法
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
算法
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
机器学习
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
算法
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
算法
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
算法
每日一题：寻找与众不同的数字

在给定的数组中，除了一个数字外，其他所有数字都是相同的。任务是找到这个唯一的不同数字。例如，findUniq([1, 1, 1, 2, 1, 1]) 返回 2，findUniq([0, 0, 0.55, 0, 0]) 返回 0.55。 ... [详细]

蜡笔小新 2024-12-27 12:19:16
数据挖掘
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51

-不想醒来-县

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章