热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【数据异常校验】肖维勒准则(ChauvenetCriterion)处理异常数据

 介绍:在统计理论中,肖维勒准则(以WilliamChauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。 肖维勒准则背后的想法是找到一个以正态分布的均值

 

介绍:

在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。
 

肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它应该合理地包含数据集的所有n个样本。通过这样做,来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值,从数据集中移除,并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。

这种异常值的识别将通过找到与平均值(max)周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。(公式1)

公式1:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》样本(如果n  = 3,则在概率带中必须仅考虑2.5个样本)。

实际上我们不能有部分样本,因此《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》n  = 3时为2.5 )约为  n。任何小于《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》的东西大约是n  – 1(如果n  = 3 则为2)并且无效,因为我们想要找到包含n个观测值的概率带,而不是n  – 1个样本。简而言之,我们正在寻找概率P,等于样本中的《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》(公式2)。

公式2:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》

解释:

  • P =以样本均值为中心的概率带,
  • n =样本量。

 

 

数量《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》对应于由正态分布的两个尾部表示的组合概率,其落在概率带  P之外。为了找到与P相关的标准偏差水平,由于其对称性,仅需要分析正态分布的尾部之一的概率(公式3)。

公式3:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》

解释:

  • z =由正态分布的一条尾部表示的概率,
  • n =样本量。

 

 

等式1类似于Z得分方程(公式4)。

公式4:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》

解释:

  • Z = z-score,
  • x =样本值,
  • μ = 0(标准正态分布的平均值),
  • σ = 1(标准正态分布的标准偏差)。

 

基于等式4,找到max(Eq.1)在z得分表中找到对应于z的z得分。 max等于z的z分数。使用此方法可以确定任何样本大小的max。在Excel中,可以使用以下公式找到max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数:返回标准正态累积分布函数的反函数值。 该分布的平均值为 0,标准偏差为 1。)

 

计算:

要应用Chauvenet标准,首先要计算观察数据的平均值和标准差。根据可疑数据与平均值的差异,使用正态分布函数(或其表)确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5,则可以丢弃可疑数据点,即,如果从均值获得特定偏差的概率小于《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》,则可以拒绝读数。

 

示例:

例如,假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7,标准偏差为16.34。50与16.7相比有33.3,稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量,因此统计值(数据大小乘以概率)为0.05×6 = 0.3。因为0.3 <0.5,根据Chauvenet的标准,应该丢弃50的测量值(留下10的新均值,标准差为0.7)。

 

缺点:

删除异常值数据是一项备受争议的做法,许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法,但它并没有使这种做法在科学上或方法上更合理,特别是在小型集合或无法假定正态分布的情况下。在实践领域中,拒绝异常值是更可接受的,其中正在测量的过程的基础模型和测量误差的通常分布是确信的。

 

参考:https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example


推荐阅读
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 丽江客栈选择问题
    本文介绍了一道经典的算法题,题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈,并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • Redux入门指南
    本文介绍Redux的基本概念和工作原理,帮助初学者理解如何使用Redux管理应用程序的状态。Redux是一个用于JavaScript应用的状态管理库,特别适用于React项目。 ... [详细]
  • 本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机(MLP)网络,涵盖回归和分类任务。通过具体示例和代码实现,帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]
  • ZooKeeper集群脑裂问题及其解决方案
    本文深入探讨了ZooKeeper集群中可能出现的脑裂问题,分析其成因,并提供了多种有效的解决方案,确保集群在高可用性环境下的稳定运行。 ... [详细]
  • 基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发
    本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]
  • 本文介绍了SVD(奇异值分解)和QR分解的基本原理及其在Python中的实现方法。通过具体代码示例,展示了如何使用这两种矩阵分解技术处理图像数据和计算特征值。 ... [详细]
  • 深入解析Java枚举及其高级特性
    本文详细介绍了Java枚举的概念、语法、使用规则和应用场景,并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual),欢迎Star并持续关注。 ... [详细]
  • 实用正则表达式有哪些
    小编给大家分享一下实用正则表达式有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下 ... [详细]
  • 历经三十年的开发,Mathematica 已成为技术计算领域的标杆,为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]
  • 本文总结了优化代码可读性的核心原则与技巧,通过合理的变量命名、函数和对象的结构化组织,以及遵循一致性等方法,帮助开发者编写更易读、维护性更高的代码。 ... [详细]
  • 深入解析Java虚拟机(JVM)架构与原理
    本文旨在为读者提供对Java虚拟机(JVM)的全面理解,涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制,帮助开发者更好地掌握Java编程的核心技术。 ... [详细]
  • 1.执行sqlsever存储过程,消息:SQLServer阻止了对组件“AdHocDistributedQueries”的STATEMENT“OpenRowsetOpenDatas ... [详细]
  • 本文回顾了2017年的转型和2018年的收获,分享了几家知名互联网公司提供的工作机会及面试体验。 ... [详细]
author-avatar
多米音乐_34067977
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有