作者:Hcl | 来源:互联网 | 2023-09-10 15:20
原文链接:https://blog.csdn.net/qq_41080850/article/details/86695846
1 什么是异常值?
-
模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点
-
异常点在某些场景下极为重要,如疾病预测,通常健康人的身体指标在某些维度上是相似,如果一个人的身体指标出现了异常,那么他的身体情况在某些方面肯定发生了改变,当然这种改变并不一定是由疾病引起(通常被称为噪音点),但异常的发生和检测是疾病预测一个重要起始点。相似的场景也可以应用到信用欺诈,网络攻击等等。
2 异常值的检测方法
1. 简单统计
- 直接观察整体数据,使用pandas.describe()观察数据的统计描述(统计数据应当为连续性)
- 简单使用散点图,从图中即可看出
2. 3σ\sigmaσ原则
前提条件:数据分布需要服从正态分布
这个是根据正态分布的性质而得出的方法
一个正态分布的横轴区间(μ−3σ,μ+3σ)(\mu-3\sigma,\mu+3\sigma)(μ−3σ,μ+3σ)内的面积为99.730020%。
若是不服从正态分布,可以使用原理n倍标准差来描述,具体n由应用场景确定
3.箱型图
使用箱型图的**四方位居(IQR)**对异常进行检测,也叫Tukey`s test
举例:
Q1 = np.percentile(df[col], 25)
Q2 = np.percentile(df[col], 75)
IQR = Q2-Q1
一般使用IQR的1.5倍为标准:
- 值大于上四分位+1.5*IQR为异常值
- 值小于"下四分位-1.5*IQR"为异常值
举例:
这只是举例检测异常的一个函数
def detect_outliers(df,n,features):&#39;&#39;&#39;features&#xff1a;检测这个特征集然后检测特征集中某个特征是否含有异常值&#xff0c;将含有异常值的index记录下来若是某个index中(即某行)含有的异常值超过n个&#xff0c;就将其加入到outlier_indices&#39;&#39;&#39;outlier_indices&#61;[]for col in features:Q1 &#61; np.percentile(df[col],25)Q3 &#61; np.percentile(df[col],75)IQR &#61; Q3-Q1outlier_step &#61; 1.5*IQRoutlier_list_col &#61; df[(df[col]<Q1-outlier_step)|(df[col]>Q3 &#43; outlier_step)].indexoutlier_indices.extend(outlier_list_col)outlier_indices &#61; Counter(outlier_indices)multiple_outliers &#61; list(k for k,v in outlier_indices.items() if v > n)return multiple_outliers
使用seaborn中的boxplot或者boxenplot画图
图上的菱形黑点就是异常值
4. 基于模型检测
这种方法一般会构建一个概率分布模型&#xff0c;并计算对象符合该模型的概率&#xff0c;把具有低概率的对象视为异常点。
- 如果模型是簇的集合&#xff0c;则异常是不显著属于任何簇的对象&#xff1b;
- 如果模型是回归时&#xff0c;异常是相对远离预测值的对象。
离群点的概率定义:离群点是一个对象&#xff0c;关于数据的概率分布模型&#xff0c;它具有低概率。这种情况的前提必须知道数据集服从什么分布&#xff0c;如果估计错误就造成了重尾分布。
比如特征工程中的RobustScaler方法&#xff0c;在做数据特征值缩放的时候&#xff0c;它会利用数据特征的分位数分布&#xff0c;将数据根据分位数划分为多段&#xff0c;只取中间段来做缩放&#xff0c;比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。
优缺点
- &#xff08;1&#xff09;有坚实的统计学理论基础&#xff0c;当存在充分的数据和所用的检验类型的知识时&#xff0c;这些检验可能非常有效&#xff1b;
- &#xff08;2&#xff09;对于多元数据&#xff0c;可用的选择少一些&#xff0c;并且对于高维数据&#xff0c;这些检测可能性很差。
5.基于近邻度的离群点检测
统计方法是利用数据的分布来观察异常值&#xff0c;一些方法甚至需要一些分布条件&#xff0c;而在实际中数据的分布很难达到一些假设条件&#xff0c;而在实际中数据的分布很难达到一些假设条件&#xff0c;在使用上有一定的局限性
确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用&#xff0c;因为一个对象的离群点得分由到它的k-最近邻&#xff08;KNN&#xff09;的距离给定。
需要注意的是&#xff1a;离群点得分对kkk的取值高度敏感。如果k太小&#xff0c;则少量的邻近离群点可能导致较低的离群点得分&#xff1b;如果KKK太大&#xff0c;则点数少于kkk的簇中所有的对象可能都成了离群点。为了使该方案对于kkk的选取更具有鲁棒性&#xff0c;可以使用kkk个最近邻的平均距离。
优缺点&#xff1a;
- 简单&#xff1b;
- 缺点&#xff1a;基于邻近度的方法需要O(m2)O(m^2)O(m2)时间&#xff0c;大数据集不适用&#xff1b;
- 该方法对参数的选择也是敏感的&#xff1b;
- 不能处理具有不同密度区域的数据集&#xff0c;因为它使用全局阈值&#xff0c;不能考虑这种密度的变化。
6. 基于密度的离群点检测
从基于密度的观点来说&#xff0c;离群点是在低密度区与的对象。
基于密度的离群点检测与基于邻近度的离群点检测密切相关&#xff0c;因为密度通常用邻进度定义。
- 一种常用的定义密度的方法是&#xff0c;定义密度为到k个最近邻的平均距离的倒数。如果该距离小&#xff0c;则密度高&#xff0c;反之亦然。
- 另一种密度定义是使用DBSCAN聚类算法使用的密度定义&#xff0c;即一个对象周围的密度等于该对象指定距离d内对象的个数。
优缺点&#xff1a;
- 给出了对象是离群点的定量度量&#xff0c;并且即使数据具有不同的区域也能够很好的处理&#xff1b;
- 与基于距离的方法一样&#xff0c;这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm)&#xff1b;
- 参数选择是困难的。虽然LOF算法通过观察不同的k值&#xff0c;然后取得最大离群点得分来处理该问题&#xff0c;但是&#xff0c;仍然需要选择这些值的上下界。
7.基于聚类的方法来做异常点检测
一个对象是基于聚类的离群点&#xff0c;如果该对象不属于任何簇&#xff0c;那么该对象属于离群点
离群点对初始聚类的影响:
如果通过聚类检测离群点&#xff0c;则由于离群点影响聚类&#xff0c;存在一个问题&#xff1a;结构是否有效。
这也是k-means算法的缺点&#xff0c;对离群点敏感。
为了处理该问题&#xff0c;可以使用如下方法&#xff1a;对象聚类&#xff0c;删除离群点&#xff0c;对象再次聚类&#xff08;这个不能保证产生最优结果&#xff09;。
优缺点&#xff1a;
- 基于线性和接近线性复杂度&#xff08;k均值&#xff09;的聚类技术来发现离群点可能是高度有效的&#xff1b;
- 簇的定义通常是离群点的补&#xff0c;因此可能同时发现簇和离群点&#xff1b;
- 产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性&#xff1b;
- 聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。
8.专门的离群点检测
其实以上说到聚类方法的本意是是无监督分类&#xff0c;并不是为了寻找离群点的&#xff0c;只是恰好它的功能可以实现离群点的检测&#xff0c;算是一个衍生的功能。
除了以上提及的方法&#xff0c;还有两个专门用于检测异常点的方法比较常用&#xff1a;One Class SVM和Isolation Forest&#xff0c;详细内容不进行深入研究。
3 异常值的处理方法
- 删除含有异常值的记录
- 视为缺失值&#xff1a;将异常值视为缺失值&#xff0c;按照缺失值进行处理
- 平均值修正&#xff1a;可用前后两个观测值的平均值修正该异常值
- 不处理&#xff1a;不直接在具有异常值的数据集上进行数据挖掘
是否要删除异常值可根据实际情况考虑。因为一些模型对异常值不很敏感&#xff0c;即使有异常值也不影响模型效果&#xff0c;但是一些模型比如逻辑回归LR对异常值很敏感&#xff0c;如果不进行处理&#xff0c;可能会出现过拟合等非常差的效果。