热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

FRM数量分析区间估计与假设检验

这里开始就是数理统计的东西了,没有接触过的童鞋可能会觉得有点不能接受,其实接触多了也就熟悉了。个人有这样一种感觉,假设检验和区间估计就是概率的概率,或者说,就是概率论的二次方。先说一下抽样和估计吧。我

这里开始就是数理统计的东西了,没有接触过的童鞋可能会觉得有点不能接受,其实接触多了也就熟悉了。个人有这样一种感觉,假设检验和区间估计就是概率的概率,或者说,就是概率论的二次方。

先说一下抽样和估计吧。我们现在有一个总体,但是,通常总体的一些统计量的获取是很花时间和金钱的,所以呢,我们就想着抽样。所谓抽样,当然就是从整体中抽一些样本出来。这个时候就有一个问题了,我计算了抽样获得的样本的均值、方差,真的能够描述原来总体的均值、方差么?


按照我们高中的数学知识,确实是这样的,我们算好均值,就可以认为是总体的了。这就是点估计。那什么是区间估计呢?我不告诉你一个点,我告诉你一个区间。这样就有一个问题了,区间可以很大呀。比如说我抽样之后告诉你,总体的平均身高在0到3米之间,这个就有点废话了,所以在区间估计的时候,我们会说置信度,也就是说,多大的概率,这个均值落在这个区间里面。

那么这个怎么计算呢?

所以我们要多次抽样,获得很多的均值,这时候,我们获得的均值是一个随机变量了,那么他就有分布,就有均值(这是均值的均值),就会有方差等等。是不是我之前说的概率论的平方啊。

这个时候,我们要提出一个很重要的定律,中心极限定律。他是这么说的:

你不是抽样么,如果你抽样抽的很多,每次抽样的数量大于30,那么,我们认为你得到的均值的分布是一个正态分布,这个正态分布。既然是正态分布,就会有两个参数,期望和方差。期望就是总体的均值。那么方差是什么呢?方差就是总体方差除以n。

现在,会有两个问题,首先说第一个,万一抽样数量没有30个怎么办?这个时候就要分情况考虑了,如果总体是服从正态分布的,那么还是一样满足;如果总体不是正态分布,那么就不能用这个中心极限定律了。

还有一个问题是,你怎么知道总体的方差?这时候就需要t-分布了。如果你不知道总体的方差,那么我们用样本的方差来代替,但是这时候均值的分布就不是正态分布了,而是一个t-分布。总结一下就是下面这张表。之前提过,当t-分布的样本很多的时候,趋近与正态分布,所以,有时候,正态分布和t-分布都可以使用。


有了上面这样的基础,我们就知道如何获取一个给定置信度下的置信区间了。

譬如我们进行一次抽样,抽取100个,然后计算这100样本的均值和方差,然后根据这一方差除以100得到均值分布的方差。进行正态分布归一化后,利用之前的分位数,就可以获得一个区间了。

这就是区间假设。

如果把上面的步骤反过来,就变成了假设检验了。

在假设检验的第一步,就是写出假设,一个叫null假设,一个叫备择假设。null假设通常是用来拒绝的,那怎么叫拒绝呢,就是我么看他有没有落在置信区间里面。很easy的思想。

但是,不同的假设使用的分布式不同的,比如我们假设均值等于4,那么我们看一下,4在不在我们的区间里面,这个区间你是使用正态分布分位数算出来的;如果判断一个方差是不是某个值呢?这时候就用卡方分布;如果是测试两个分布的方差是否一样的,那么就是F-分布。

这就是所谓的假设检验。当然,还有很多的数学细节,但是思想就是这样。



推荐阅读
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 深入解析:阿里实战 SpringCloud 微服务架构与应用
    本文将详细介绍 SpringCloud 在微服务架构中的应用,涵盖入门、实战和案例分析。通过丰富的代码示例和实际项目经验,帮助读者全面掌握 SpringCloud 的核心技术和最佳实践。 ... [详细]
  • 深入理解一致性哈希算法及其应用
    本文详细介绍了分布式系统中的一致性哈希算法,探讨其原理、优势及应用场景,帮助读者全面掌握这一关键技术。 ... [详细]
  • 本文探讨了2012年4月期间,淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型,以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)的特点,帮助读者理解不同存储方式的优势与局限性。 ... [详细]
  • 本文探讨了大数据生态系统的构建,重点介绍其分布式存储和运算机制,并补充相关技术及应用场景。 ... [详细]
  • 云计算的优势与应用场景
    本文详细探讨了云计算为企业和个人带来的多种优势,包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点,并结合实际案例进行分析。 ... [详细]
  • 本文探讨了Java编程的核心要素,特别是其面向对象的特性,并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • ZooKeeper集群脑裂问题及其解决方案
    本文深入探讨了ZooKeeper集群中可能出现的脑裂问题,分析其成因,并提供了多种有效的解决方案,确保集群在高可用性环境下的稳定运行。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • NTP服务器配置详解:原理与工作模式
    本文深入探讨了网络时间协议(NTP)的工作原理及其多种工作模式,旨在帮助读者全面理解NTP的配置参数和应用场景。NTP是基于RFC 1305的时间同步标准,广泛应用于分布式系统中,确保设备间时钟的一致性。 ... [详细]
  • 深入解析Serverless架构模式
    本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构,探讨Serverless如何简化应用开发与运维流程,并介绍当前主流的Serverless平台。 ... [详细]
author-avatar
林筱杏-HA
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有