数仓面试，数据分析中异常值检测算法？

作者：廖赞胜 | 来源：互联网 | 2023-10-14 12:45

这一节来讲下关于数据分析中，异常数据识别的几种算法：k-m

“ 异常值是我们在数据分析中会经常遇到的一种特殊情况，所谓的异常值就是非正常数据。我们这节来讲下关于数据分析中，异常数据识别的几种算法：k-mean、箱体图法等。”

异常值是我们在数据分析中会经常遇到的一种特殊情况，所谓的异常值就是非正常数据。有的时候异常数据对我们是有用的，有的时候异常数据不仅对我们无用，反而会影响我们正常的分析结果。比如在分析银行欺诈案例时，核心就是要发现异常值，这个时候异常值对我们是有用的。再比如，在统计某个城市的平均收入的时候，有人月收入是好几个亿，这个时候这个人就是一个异常值，这个异常值会拉高城市的整体平均收入，因此可能会得到一个不真实的分析结果。

这一篇来分享下，如何识别异常值以及识别到异常值以后该如何处理。

—

箱体图法：

分位数识别

代表的执行方法为箱式图：

上四分位数Q3，又叫做升序数列的75%位点
下四分位数Q1，又叫做升序数列的25%位点
箱式图检验就是摘除大于Q3+3/2*（Q3-Q1）
，小于Q1-3/2*（Q3-Q1）
外的数据，并认定其为异常值；针对全量样本已知的问题比较好，缺点在于数据量庞大的时候的排序消耗
R语言中的quantile
函数，python中的percentile
函数可以直接实现。

—

距离识别:

最常用的就是欧式距离，
比如：两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离：

可以直观感受的到，图中，距离蓝色B点距离为基准衡量的话，红色A1，红色A2，红色A3为距离较近点，A4为距离较远的异常点。

但是这样看问题会有一个隐患，我们犯了“就点论点”的错误没有考虑到全局的问题，让我在看下面这张图：

还是刚才那张图，橙色背景为原始数据集分布，这样看来A4的位置反而比A1、A3相对更靠近基准点B，所以在存在纲量不一致且数据分布异常的情况下，可以使用马氏距离代替欧式距离判断数据是否离群。

其中，μ
为feature的均值，X
为观察值，Σ
为feature的协方差矩阵
马氏距离除了用来判断点是否异常，也可以用来判断两个数据集相识度，在图像识别，反欺诈识别中应用的也是非常普遍；问题在于太过于依赖Σ
，不同的base case对应的Σ
都是不一致的，不是很稳定

—

K均值聚类:

K均值聚类算法的思路非常通俗易懂，就是不断地计算各样本点与簇中心之间的距离，直到收敛为止，其具体的步骤如下：

（1）从数据中随机挑选k个样本点作为原始的簇中心。

（2）计算剩余样本与簇中心的距离，并把各样本标记为离k个簇中心最近的类别。

（3）重新计算各簇中样本点的均值，并以均值作为新的k个簇中心。

（4）不断重复（2）和（3），直到簇中心的变化趋于稳定，形成最终的k个簇。

如上图所示，图中蓝色和红色之间形成鲜明的簇，其中每个簇内包含5000个数据。如果数据中存在异常点，目测蓝色的簇可能会包含更多异常，因为数据点相对分散一些。

如上图所示，通过9个子图对Kmeans聚类过程加以说明：子图1，从原始样本中随机挑选两个数据点作为初始的簇中心，即子图中的两个五角星；子图2，将其余样本点与这两个五角星分别计算距离(距离的度量可选择欧氏距离、曼哈顿距离等)，然后将每个样本点划分到离五角星最近的簇，即子图中按虚线隔开的两部分；子图3，计算两个簇内样本点的均值，得到新的簇中心，即子图中的五角星；子图4，根据新的簇中心，继续计算各样本与五角星之间的距离，得到子图5的划分结果和子图6中新的簇内样本均值；以此类推，最终得到理想的聚类效果，如子图9所示，图中的五角星即最终的簇中心点。

实现原理：

使用K均值聚类的思想识别数据中的异常点还是非常简单的，具体步骤如下：

利用“拐点法”、“轮廓系数法”、“间隔统计量法”或者“经验法”确定聚类的个数；
基于具体的K值，对数据实施K均值聚类的应用；
基于聚类的结果，计算簇内每个点到簇中心的距离；
将距离跟阈值相比较，如果其大于阈值则认为是异常，否则正常；

#我是媛姐，一枚有多年大数据经验的程序媛，打过螺丝搬过砖，关注数仓，关注分析。愿你我走得更远！

推荐阅读

python
探索Pandas中的SQL式数据操作技巧

虽然SQL因其直观易学的语法受到广泛欢迎，但转向Pandas进行数据处理时，初学者可能会感到不适应。本文旨在通过一系列实例，展示如何在Pandas中实现类似SQL的数据查询功能。 ... [详细]

蜡笔小新 2024-12-16 19:23:42
string
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
java
LeetCode 991：故障计算器的最优解法

探讨一个显示数字的故障计算器，它支持两种操作：将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]

蜡笔小新 2024-12-27 14:34:44
java
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
java
C语言实现小写金额转换为大写金额

在金融和会计领域，准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据，还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法，确保数据的标准化和规范化。 ... [详细]

蜡笔小新 2024-12-27 12:39:06
bit
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
bit
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
bit
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
bit
利用MATLAB实现“逢七必过”游戏规则与数字图像处理技术的应用——第4章深入解析

在《数字图像处理及应用（MATLAB）第4章》中，详细探讨了“逢七必过”游戏规则的实现方法，并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例，展示了如何利用MATLAB实现这一游戏规则，并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面，为读者提供了全面的技术支持和实践指导。 ... [详细]

蜡笔小新 2024-11-11 11:46:42
bit
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
bit
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
bit
基于MATLAB的图像相似度分析：余弦相似度算法的实现与应用

本文探讨了利用MATLAB实现图像相似度分析的方法，重点介绍了余弦相似度算法的实现及其在实际应用中的效果。通过实验验证，该方法在图像匹配和检索任务中表现出较高的准确性和效率，为图像处理领域提供了有力的技术支持。 ... [详细]

蜡笔小新 2024-10-27 11:16:36
bit
cs231n笔记（1）——KNN算法

图像分类：KNN算法（K—最近邻算法）一.定义定义：KNN是通过测量不同特征值之间的距离进行分类。它的的思路是ÿ ... [详细]

蜡笔小新 2024-10-25 13:32:41
bit
MATLAB人体行为检测与识别

人体行为检测与识别摘要人体行为检测与识别是当前研究的重点，具有很高的研究价值和广阔的应用前景。主要应用在型人机交互、运动分析、智能监控和虚拟现实也称灵境技术ÿ ... [详细]

蜡笔小新 2024-10-20 19:34:31
bit
巨头_巨头纷纷押注的智能翻译机，会是第一款成功的消费级AI硬件吗？

到了今天，已经很少有人再提人工智能音箱了。使用率低、售价跳水、缺乏销售数据……我们不能武断地说智能音箱凉了，但的确不少所谓的AI企业的硬件梦碎了。相对于一 ... [详细]

蜡笔小新 2024-10-10 12:31:22

廖赞胜

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章