热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

从正态分布到T检验

1.说明接上次的《几种常见的数学分布》。这次说说T分布和T检验,用词不够严谨,大家就领会精神为主吧~2.什么是抽样如果整体

1. 说明

 接上次的《几种常见的数学分布》。这次说说T分布和T检验,用词不够严谨,大家就领会精神为主吧~


2. 什么是抽样

 如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。

 比如说,一个班有20个人,我们可以把所有人的身高加一起,除以人数,计算均值,如果有2000000人,就无法把所有人身高都统计一遍再除以总数,一般情况下,就是取其中一部分,计算其均值,认为他们能代表全部。


3. 正态分布

 先复习一下正态分布,比如说女人的身高一般在160左右,150, 170的比较少,140,180的更少,把身高当做横轴,人数作为纵轴画图,就可看到一个中间高两边低的钟形曲线,也就是正态分布。

 那什么不是正态分布呢?比如人的空腹血糖一般在4-6之间,而血糖高的7,8,9的很多,而低到3,2,1的就很少,不样一边多一边少的,就不是正态分布。


4. 正态分布和T分布

 如果只有20个人画一下算一下,就是正态分布;如果有2000000人,从中随机取出20个,画一图也就钟形,就叫T分布。它俩的不同就在于,一个是抽样的,一个是全体的。规律都是中间高两边低对称的样子。当取样趋于无穷大时,T分布就是正态分布,但一般都没法取太多。


5. 假设检验

 如果有2000000个女的,你认为她们的身高是正态分布,均值160(称理论值或标准值μ0),然后从中随机选了20个人,平均身高161(μ),标准差为5(上下浮动),那她们是否适合你所定义的正态分布均值160的规律呢?

 由样本信息对相应总体的特征进行推断称为统计推断。若对所估计的总体首先提出一个假设(平均身高160),然后通过样本数据(20个人)去推断是否拒绝这一假设,称为假设检验,如果符合这个假设就是H0(无效假设null hypothesis),如果不符合就是H1(备择假设alternative hypothesis)。


6. T检验

 以T分布为基础的检验叫T检验。这里主要是判断一组样本是否符合我们设定的“统计推断”。 将上例中的值代入公式,如果这20人的平均身高为161,求t值。

 如果这20人的平均身高为164

 

 

 可以看出t值的大小与抽样的均值161,标准差5,样本数20,以及统计推断160相关。


7. 如何查表

 H0成立时t服从自由度v=n-1=19的t分布,查表如下:

 上面的0.05和0.025又是什么呢?是p值(p-value),p=0.05意味着样本统计有95%的信心拒绝原假设,就是说p越小,原假设越可能被拒绝,一般p设成0.05,自由度19时,它对应的t值为2.093。

 当采样的20人平均身高为161时,t=0.894<2.093,即H0成立(抽样符合假设),当平均身高为164时,t=3.578>2.093,则H1成立(即这组抽样不符合假设)。

 就是说t差得越多,t是因为误差造成的可能性p越小,既然不是因为误差,那就是因为本质不同,所以不符合假设。


8. 单侧和双侧检验

 那上边为什么还有0.05和0.1的差别呢?它分别对应单侧和双侧检验。 理论值μ0(160),抽样均值μ(161)。

双测检验值:
μ≠μ0 (μ >μ0或μ<μ0)
单测检验值:
μ>μ0 (根据专业角度,μ不可能小于μ0)
μ<μ0 (根据专业角度,μ不可能大于μ0)

 通常我们用的都是双侧t检验,上例中用的也是双边的p值0.05对应的t值。


9. T检验的应用条件

 要符合t检验的条件,才能计算t检验的统计值

(1) 必须是随机样本且相互独立

 比如抽得出自一个家庭,就只能统计这一家的,不能代表全国的。

(2) 来自正态分布的总体

 正态分布是一种特殊的T分布,判断正态分布的方法有很多,比如Shapiro- Wilk (W检验)用于3-50个的小样本,Kolmogorov-Smirnov检验(D检验)用于小于5000的样本量,大于2000可做直方图,观察是否正态分布。

(3)方差齐性

 均数比较时,要求两总体方差相等


推荐阅读
  • 本文总结了在使用Ionic 5进行Android平台APK打包时遇到的问题,特别是针对QRScanner插件的改造。通过详细分析和提供具体的解决方法,帮助开发者顺利打包并优化应用性能。 ... [详细]
  • 本章将深入探讨移动 UI 设计的核心原则,帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧,您将能够创建出既美观又实用的移动应用。 ... [详细]
  • 本文详细介绍了如何在 Windows 环境下使用 node-gyp 工具进行 Node.js 本地扩展的编译和配置,涵盖从环境搭建到代码实现的全过程。 ... [详细]
  • 选择适合生产环境的Docker存储驱动
    本文旨在探讨如何在生产环境中选择合适的Docker存储驱动,并详细介绍不同Linux发行版下的配置方法。通过参考官方文档和兼容性矩阵,提供实用的操作指南。 ... [详细]
  • 本文介绍了一种在 MySQL 客户端执行 NOW() 函数时出现时间偏差的问题,并详细描述了如何通过配置文件调整时区设置来解决该问题。演示场景中,假设当前北京时间为2023年2月17日19:31:37,而查询结果显示的时间比实际时间晚8小时。 ... [详细]
  • 本文探讨了Java编程的核心要素,特别是其面向对象的特性,并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]
  • JavaScript 基础语法指南
    本文详细介绍了 JavaScript 的基础语法,包括变量、数据类型、运算符、语句和函数等内容,旨在为初学者提供全面的入门指导。 ... [详细]
  • 如何使用Ping命令来测试网络连接?当网卡安装和有关参数配置完成后,可以使用ping命令来测试一下网络是否连接成功。以winXP为例1、打开XP下DOS窗口具体操作是点击“开始”菜 ... [详细]
  • 深入解析Java虚拟机(JVM)架构与原理
    本文旨在为读者提供对Java虚拟机(JVM)的全面理解,涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制,帮助开发者更好地掌握Java编程的核心技术。 ... [详细]
  • 深入解析SpringMVC核心组件:DispatcherServlet的工作原理
    本文详细探讨了SpringMVC的核心组件——DispatcherServlet的运作机制,旨在帮助有一定Java和Spring基础的开发人员理解HTTP请求是如何被映射到Controller并执行的。文章将解答以下问题:1. HTTP请求如何映射到Controller;2. Controller是如何被执行的。 ... [详细]
  • 在高并发需求的C++项目中,我们最初选择了JsonCpp进行JSON解析和序列化。然而,在处理大数据量时,JsonCpp频繁抛出异常,尤其是在多线程环境下问题更为突出。通过分析发现,旧版本的JsonCpp存在多线程安全性和性能瓶颈。经过评估,我们最终选择了RapidJSON作为替代方案,并实现了显著的性能提升。 ... [详细]
  • 本文回顾了2017年的转型和2018年的收获,分享了几家知名互联网公司提供的工作机会及面试体验。 ... [详细]
  • PostgreSQL 最新动态 —— 2022年4月6日
    了解 PostgreSQL 社区的最新进展和技术分享 ... [详细]
  • ElasticSearch 集群监控与优化
    本文详细介绍了如何有效地监控 ElasticSearch 集群,涵盖了关键性能指标、集群健康状况、统计信息以及内存和垃圾回收的监控方法。 ... [详细]
  • 本文介绍了如何在React和React Native项目中使用JavaScript进行日期格式化,提供了获取近7天、近半年及近一年日期的具体实现方法。 ... [详细]
author-avatar
幸福的妈妈88
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有