事实上,在一个数据丰富的数据库中,离群数据和非离群数据之间并没有根本区别。实际上,用户对于离群数据的挖掘必须通过一个阈值的界定,将偏差度高于阈值的所有集群标记为离群。
值集群,集群中的成员都是离群数据。离群数据检测主要有3种方法(见图7-3)。离群数据检测方法统计方法基于密度的基于聚类的离群点检测技术离群数据检测的三种方法。
第一种方法
统计方法统计学方法是指基于模型根据对象拟合模型的情况来评估数据的方法。概率分布模型检测离群数据的应用最普遍,在这种模型中,代表离群数据的离群点具有低概率。运用概率分布模型检测离群值的前提是知道数据集合服从哪一种分布,如果估计错误就造成了重尾分布。
大数据离群数据检测的三种方法_数据中心_数据中心网络_大数据_课课家
第二种方法
基于密度的离群点检測从密度的角度来看,离群点是在低密度区域的对象。基于密度的离群点检测具有一定的局限性。当数据包含不同密度的区域时,这种方法就不能正确地识别离群点。
第三种方法
基于聚类的技术聚类检测离群点的方法有很多种,应用最普遍最安全的方法是通过丢弃远离其他簇的小簇簇检测离群值,这个方法可以同其他聚类技术一起使用。还有一种比较系统的方法是首先聚类所有对象,然后评估对象属于簇的程度,如果该对象不属于任何,那么该对象就是离群数据。对离群数据进行检测主要是为了清洗数据与挖掘数据。
大数据离群数据检测的三种方法.中琛魔方大数据(www.zcmorefun.com)表示我们可以通过离群数据的检测可以发现数据的“小众模式”,即数据特征显著不同于其他数据的对象。比如,在人们的日常生活中,某个人认为是噪声的声音对另一个人来说可能是信号。