热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【数据异常校验】肖维勒准则(ChauvenetCriterion)处理异常数据

 介绍:在统计理论中,肖维勒准则(以WilliamChauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。 肖维勒准则背后的想法是找到一个以正态分布的均值

 

介绍:

在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。
 

肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它应该合理地包含数据集的所有n个样本。通过这样做,来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值,从数据集中移除,并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。

这种异常值的识别将通过找到与平均值(max)周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。(公式1)

公式1:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》样本(如果n  = 3,则在概率带中必须仅考虑2.5个样本)。

实际上我们不能有部分样本,因此《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》n  = 3时为2.5 )约为  n。任何小于《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》的东西大约是n  – 1(如果n  = 3 则为2)并且无效,因为我们想要找到包含n个观测值的概率带,而不是n  – 1个样本。简而言之,我们正在寻找概率P,等于样本中的《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》(公式2)。

公式2:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》

解释:

  • P =以样本均值为中心的概率带,
  • n =样本量。

 

 

数量《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》对应于由正态分布的两个尾部表示的组合概率,其落在概率带  P之外。为了找到与P相关的标准偏差水平,由于其对称性,仅需要分析正态分布的尾部之一的概率(公式3)。

公式3:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》

解释:

  • z =由正态分布的一条尾部表示的概率,
  • n =样本量。

 

 

等式1类似于Z得分方程(公式4)。

公式4:

《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》

解释:

  • Z = z-score,
  • x =样本值,
  • μ = 0(标准正态分布的平均值),
  • σ = 1(标准正态分布的标准偏差)。

 

基于等式4,找到max(Eq.1)在z得分表中找到对应于z的z得分。 max等于z的z分数。使用此方法可以确定任何样本大小的max。在Excel中,可以使用以下公式找到max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数:返回标准正态累积分布函数的反函数值。 该分布的平均值为 0,标准偏差为 1。)

 

计算:

要应用Chauvenet标准,首先要计算观察数据的平均值和标准差。根据可疑数据与平均值的差异,使用正态分布函数(或其表)确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5,则可以丢弃可疑数据点,即,如果从均值获得特定偏差的概率小于《【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据》,则可以拒绝读数。

 

示例:

例如,假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7,标准偏差为16.34。50与16.7相比有33.3,稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量,因此统计值(数据大小乘以概率)为0.05×6 = 0.3。因为0.3 <0.5,根据Chauvenet的标准,应该丢弃50的测量值(留下10的新均值,标准差为0.7)。

 

缺点:

删除异常值数据是一项备受争议的做法,许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法,但它并没有使这种做法在科学上或方法上更合理,特别是在小型集合或无法假定正态分布的情况下。在实践领域中,拒绝异常值是更可接受的,其中正在测量的过程的基础模型和测量误差的通常分布是确信的。

 

参考:https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example


推荐阅读
  • 本文探讨了如何在给定整数N的情况下,找到两个不同的整数a和b,使得它们的和最大,并且满足特定的数学条件。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 计算机网络复习:第五章 网络层控制平面
    本文探讨了网络层的控制平面,包括转发和路由选择的基本原理。转发在数据平面上实现,通过配置路由器中的转发表完成;而路由选择则在控制平面上进行,涉及路由器中路由表的配置与更新。此外,文章还介绍了ICMP协议、两种控制平面的实现方法、路由选择算法及其分类等内容。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 本文详细介绍了 Dockerfile 的编写方法及其在网络配置中的应用,涵盖基础指令、镜像构建与发布流程,并深入探讨了 Docker 的默认网络、容器互联及自定义网络的实现。 ... [详细]
  • 探讨一个显示数字的故障计算器,它支持两种操作:将当前数字乘以2或减去1。本文将详细介绍如何用最少的操作次数将初始值X转换为目标值Y。 ... [详细]
  • 深入解析:手把手教你构建决策树算法
    本文详细介绍了机器学习中广泛应用的决策树算法,通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字,建议阅读时间5分钟。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 网络攻防实战:从HTTP到HTTPS的演变
    本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程,探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]
  • 本文深入探讨了Linux系统中网卡绑定(bonding)的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡,实现网络冗余、带宽聚合和负载均衡,在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
  • ABBYY FineReader:高效PDF转换、精准OCR识别与文档对比工具
    在处理PDF转换和OCR识别时,您是否遇到过格式混乱、识别率低或图表无法正常识别的问题?ABBYY FineReader以其强大的功能和高精度的识别技术,完美解决这些问题,帮助您轻松找到最终版文档。 ... [详细]
  • 1.执行sqlsever存储过程,消息:SQLServer阻止了对组件“AdHocDistributedQueries”的STATEMENT“OpenRowsetOpenDatas ... [详细]
  • 本文介绍了解决在Windows操作系统或SQL Server Management Studio (SSMS) 中遇到的“microsoft.ACE.oledb.12.0”提供程序未注册问题的方法,特别针对Access Database Engine组件的安装。 ... [详细]
author-avatar
多米音乐_34067977
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有