热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

样本方差的分母,样本方差的分母是n还是n1

样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的。无偏估计(unbiasedestimator)比有偏估计(biasedestimator)是更符合数学推导的。在这里

样本方差计算公式里分母为n-1的目的是为了让方差的估计是无偏的。无偏估计(unbiased estimator)比有偏估计(biased estimator)是更符合数学推导的。在这里最让我们困惑的地方是,为什么分母必须得是n-1而不是n才能该估计无偏。这才是令大家真正困惑的地方!

理论推导验证

设随机变量 X 的数学期望 μ 是已知的,然而方差 σ2 未知。在这个条件下,根据方差的定义我们有

E[(Xi−μ)2]=σ2,∀i=1,...,n .
由此可得:
E[1n∑i=1n(Xi−μ)2]=σ2

因此 1n∑ni=1(Xi−μ)2=σ2 是方差 σ2 的一个无偏估计,注意式中的分母不偏不倚正好是n!
这个结果是符合我们的直觉的,在数学期望 μ 已知的条件下,求其方差我们用了n个数据。

现在,我们要考虑的是随机变量 X 的数学期望 μ 未知的情形(因为大部分情况下,我们对于总体是没有办法获得其准确均值的,我们获得的只是样本均值)。这时,我们会用样本均值 X¯ 替换掉上面式子中的 μ ,这样做很显然是不能得到总体真实均值的,肯定会有误差,这种不精确是更加倾向于低估差误的。

下面来看证明过程:

1n∑i=1n(Xi−X¯)2=1n∑i=1n[(Xi−μ)+(μ−X¯)]2=1n∑i=1n(Xi−μ)2+2n∑i=1n(Xi−μ)(μ−X¯)+1n∑i=1n(μ−X¯)2=1n∑i=1n(Xi−μ)2+2(X¯−μ)(μ−X¯)+(μ−X¯)2=1n∑i=1n(Xi−μ)2−(μ−X¯)2
看其结果我们可以看到,在大不多情况下都是 X¯≠μ 的,所有我们有 1n∑i=1n(Xi−X¯)2<1n∑i=1n(Xi−μ)2
可以看到不等式右边的才是对总体均值正确的求解,且上式说明了当分母为 n 时会导致对方差的低估!

所以,在并不知道随机变量 X 真是数学期望的前提下,如何“正确”的估计方差呢?
答案就是把上式分母n换成n-1,通过这种方法可以把原来偏小的估计“放大”一点点,我们就能获得对方差的正确估计.
至于分母为什么是n-1,而不是n-2,这是通过无偏估计的方法求出来的,形式推导此处略过。
下面是无偏估计的具体形式:

E[1n−1∑i=1n(Xi−X¯)2]=E[1n∑i=1n(Xi−μ)2]=σ2

深层次理解(无理论推导)

要理解分母为什么是n-1,我们先要理解在统计学当中自由度是什么,它是怎样确定的

自由度的定义:构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目叫做自由度(Degrees of freedom 简称df)。

自由度的提出是出于这样的理由:在总体均值未知时,用样本均值去计算方差会受到一个限制——要计算标准差就必须得知道样本均值,而样本均值和n都知道的情况下,数据的总和就是一个定值。
我们知道样本均值由下式得来:

1n(x1+x2+x3+...+xn)=X¯

我们可以把这个看作是一个方程。方程有n个变量,方程就是约束,一个方程代表了一个约束。n个变量就会有n个自由度,一个方程(约束)就会限制住一个自由度。所以由上式只有n-1个自由度(实质上这和线性代数理论中秩的概念不谋而合),当然如果要更深层次探究下去,也可以理解成这n个样本组成的向量就满足了一个线性条件,也就是只能在一个维度是n-1的空间里取值。(拓展到空间)

举个例子,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
简单点就好比你有一百块,这是固定的,已知的,假设你打算买五件东西,那么前四件你可以随便买你想买的东西,只要还有钱的话,比如说你可以吃KFC可以买笔,可以买衣服,这些花去的钱数目不等,独特的龙猫只剩2块钱时,或许你最多只能买一瓶可乐了,当然也可以买一个肉松蛋卷,但无论怎么花,你都只有两块钱,而这在你花去98块那时就已经定下来了。

换句话说,在计算作为估计量的统计量时,引进一个统计量就会失去一个自由度。或者说为了估计期望而花费了一个自由度。(若能看懂此句,说明真的懂了)
回到最初的问题,为什么样本方差分母是n-1,到这里应该很清晰了。在求方差时,只有(n-1)个数和均值信息是不相关的(只有n-1个自由度)。而你的第n个数已经可以由前(n-1)个数和均值来唯一确定,实际上没有信息量
所以在计算方差时,只除以(n-1)。


推荐阅读
  • 使用Vultr云服务器和Namesilo域名搭建个人网站
    本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站,包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南,帮助读者顺利完成建站过程。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • 本题探讨了在一个有向图中,如何根据特定规则将城市划分为若干个区域,使得每个区域内的城市之间能够相互到达,并且划分的区域数量最少。题目提供了时间限制和内存限制,要求在给定的城市和道路信息下,计算出最少需要划分的区域数量。 ... [详细]
  • 探讨了如何解决Ajax请求响应时间过长的问题。本文分析了一个从服务器获取少量数据的Ajax请求,尽管服务器已经对JSON响应进行了缓存,但实际响应时间仍然不稳定。 ... [详细]
  • 本文详细介绍了如何通过RPM包在Linux系统(如CentOS)上安装MySQL 5.6。涵盖了检查现有安装、下载和安装RPM包、配置MySQL以及设置远程访问和开机自启动等步骤。 ... [详细]
  • 反向投影技术主要用于在大型输入图像中定位特定的小型模板图像。通过直方图对比,它能够识别出最匹配的区域或点,从而确定模板图像在输入图像中的位置。 ... [详细]
  • 本文详细介绍了浏览器的同源策略及其重要性,并探讨了多种实现跨域访问的方法。同源策略是浏览器的一项核心安全机制,确保不同源的客户端脚本无法在未经授权的情况下读取或修改其他来源的资源。例如,a.com下的JavaScript代码通过AJAX请求获取b.com的数据将被阻止。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 本文介绍了在Angular中,如何有效地监听由ngFor指令生成的DOM元素的事件,并提供了具体的实现方法和示例代码。 ... [详细]
  • 基于Node.js、Express、MongoDB和Socket.io的实时聊天应用开发
    本文详细介绍了使用Node.js、Express、MongoDB和Socket.io构建的实时聊天应用程序。涵盖项目结构、技术栈选择及关键依赖项的配置。 ... [详细]
  • 深入理解Vue.js:从入门到精通
    本文详细介绍了Vue.js的基础知识、安装方法、核心概念及实战案例,帮助开发者全面掌握这一流行的前端框架。 ... [详细]
  • 本文介绍如何从JSON格式的文件中提取数据并将其分配给Bash脚本中的变量。我们将探讨具体的命令和工具,帮助你高效地完成这一任务。 ... [详细]
  • 本文介绍了如何在 Node.js 中使用 `setDefaultEncoding` 方法为可写流设置默认编码,并提供了详细的语法说明和示例代码。 ... [详细]
  • Redux入门指南
    本文介绍Redux的基本概念和工作原理,帮助初学者理解如何使用Redux管理应用程序的状态。Redux是一个用于JavaScript应用的状态管理库,特别适用于React项目。 ... [详细]
  • 本文总结了优化代码可读性的核心原则与技巧,通过合理的变量命名、函数和对象的结构化组织,以及遵循一致性等方法,帮助开发者编写更易读、维护性更高的代码。 ... [详细]
author-avatar
qiuqiu
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有