热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

t分布f分布与样本均值抽样分布_常见的统计分布数据分析

大纲:常见的离散型概率分布(二项,几何,超几何,泊松)常见的连续型概率分布(指数,正态,均匀)三大抽样分布(卡方,t,F)一些推论和分布之间的关系离散型分布二项分布实验重复n次,每

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

大纲:

  1. 常见的离散型概率分布(二项,几何,超几何,泊松)
  2. 常见的连续型概率分布(指数,正态,均匀)
  3. 三大抽样分布(卡方,t,F)
  4. 一些推论和分布之间的关系

离散型分布

  • 二项分布

实验重复n次,每次实验相互独立(伯努利实验),实验有两种结果,成功概率p,失败概率1-p。

在二项分布中,我们关注的是在n次试验中成功的次数(区别于几何分布)。

举个栗子:

当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

二项概率的数学期望为E(x) = np,方差D(x) = np(1-p)。

  • 几何分布

几何分布(英语:Geometric distribution)指的是以下两种离散型概率分布中的一种:

  • 在伯努利试验中,得到一次成功所需要的试验次数 X
  • 在得到第一次成功之前所经历的失败次数 X

n重伯努利实验

在第X次成功的概率:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • 超几何分布

超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不归还 (without replacement))。

例如:从N个样本中抽取n个,N个中有r个不合格的,求抽到x个不合格样本的概率。

超几何分布的概率分布,均值和方差:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • 泊松分布

泊松概率的成立条件是在任意两个长度相等的时间区间中,事件发生的概率是相同的,并且事件是否发生都是相互独立的。

x代表发生x次,u代表发生次数的数学期望,概率函数为:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

实际计算过程中用这个公式更好理解:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

t是你要计算的时间区间长度,t=1时即为泊松分布(单位时间),扩展后的函数是泊松过程。

泊松分布的数学期望和方差相等,因此E(x) = D(x) = λ。

连续型分布

  • 均匀分布

在取值区间内出现概率相同(常数)

概率密度函数,均值和方差:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • 指数分布

指数分布是连续型概率分布!!!放在这里是因为它跟泊松分布关系密切,可以由泊松分布推导而来。

指数分布是事件的时间间隔的概率。时间间隔大于t,等同于t时间内事件次数为0的概率,而后者的概率可以由泊松过程给出。

推导过程:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

指数分布的期望和方差:若以λ为参数,则是E(X)=1/λ D(X)=1/λ²

  • 正态分布

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

正态分布的经验法则:

均值±标准差:68.3%

均值±2标准差:95.4%

均值±3标准差:99.7%

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

抽样分布

  • 点估计和区间估计

点估计:用样本统计量估计总体参数,未给出估计的可靠程度(置信度)

区间估计:给定置信水平,以估计值为中心给出真实值可能出现的区间范围。

  • 大数定律和中心极限定理

大数定律:样本量趋近于无穷时,样本均值收敛到总体期望

中心极限定理:

1,样本均值约等于总体均值

2,抽样次数趋近于无穷时,样本均值围绕总体均值呈现正态分布(无论总体分布是否服从正态分布)

  • 标准差与标准误

标准差 = 一次抽样中个体分数间的离散程度,反映了个体分数对样本均值的代表性,用于描述统计

标准误 = 多次抽样中样本均值间的离散程度,反映了样本均值对总体均值的代表性,用于推论统计

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • 卡方分布

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

概率密度函数及其形状:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

当自由度n增大时,卡方分布的概率密度函数趋于对称。

卡方分布的性质:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • t分布

在讲t分布之前先了解下t检验和z检验:

  1. Z-Test 用于大样本(n>30),或总体方差已知;
  2. T-Test 在小样本(n<30),且总体方差未知时,适用性优于Z-Test,而在大样本时,T-Test 与 Z-Test 结论趋同。

单样本t统计量:由于总体标准差未知,一般用样本标准差S估计总体标准差

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

双样本t统计量:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

t统计量的分布服从t分布。当样本量无限大时,t分布无限接近于正态分布N(0,1)。

自由度为n的t分布

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

概率密度函数及其形状:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

t变量的性质:当n趋向于无穷大时,t变量的极限分布为N(0,1)。

  • F分布

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

概率密度函数及其图形:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

自由度为m,n的F分布的密度函数

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

F分布的自由度mn是有顺序的, 当m≠n时, 若将自由度mn的顺序颠倒一下, 得到的是两个不同的F分布.

F变量的性质:

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

几个重要推论和分布间的关系

  • 正态变量线性函数的分布

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • 正态变量样本均值和样本方差的分布

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

  • 一些推论

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

《t分布f分布与样本均值抽样分布_常见的统计分布--数据分析》

参考资料:

小白都能看懂的95%置信区间_bitcarmanlee的博客-CSDN博客

https://blog.csdn.net/anshuai_aw1/article/details/82656691

《商务与经济统计》学习笔记(七)-各统计分布知识点归纳_天阑之蓝的博客-CSDN博客

如何七周成为数据分析师15:读了本文,你就懂了概率分布 | 人人都是产品经理


推荐阅读
  • 深入剖析 DEX 赛道:从 60 大头部项目看五大趋势
    本文通过分析 60 大头部去中心化交易平台(DEX),揭示了当前 DEX 赛道的五大发展趋势,包括市场集中度、跨链协议、AMM+NFT 结合、新公链崛起以及稳定币和衍生品交易的增长潜力。 ... [详细]
  • 本题探讨了在一个有向图中,如何根据特定规则将城市划分为若干个区域,使得每个区域内的城市之间能够相互到达,并且划分的区域数量最少。题目提供了时间限制和内存限制,要求在给定的城市和道路信息下,计算出最少需要划分的区域数量。 ... [详细]
  • 采用IKE方式建立IPsec安全隧道
    一、【组网和实验环境】按如上的接口ip先作配置,再作ipsec的相关配置,配置文本见文章最后本文实验采用的交换机是H3C模拟器,下载地址如 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 深入探讨CPU虚拟化与KVM内存管理
    本文详细介绍了现代服务器架构中的CPU虚拟化技术,包括SMP、NUMA和MPP三种多处理器结构,并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景,帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]
  • Codeforces Round #566 (Div. 2) A~F个人题解
    Dashboard-CodeforcesRound#566(Div.2)-CodeforcesA.FillingShapes题意:给你一个的表格,你 ... [详细]
  • 本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率,使用经典的EK(Edmonds-Karp)和Dinic算法进行求解。 ... [详细]
  • 作者:守望者1028链接:https:www.nowcoder.comdiscuss55353来源:牛客网面试高频题:校招过程中参考过牛客诸位大佬的面经,但是具体哪一块是参考谁的我 ... [详细]
  • 信用评分卡的Python实现与评估
    本文介绍如何使用Python构建和评估信用评分卡模型,涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]
  •   上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系,到底是什么关系呢?我们就来探讨一下吧。(这一篇数学推导占了大多数,可能看起来会略有枯燥,但这本身就是一个把之前算法 ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
  • 本文介绍如何从字符串中移除大写、小写、特殊、数字和非数字字符,并提供了多种编程语言的实现示例。 ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 优化SQL Server批量数据插入存储过程的实现
    本文介绍了一种改进的SQL Server存储过程,用于生成批量插入语句。该方法不仅提高了性能,还支持单行和多行模式,适用于SQL Server 2005及以上版本。 ... [详细]
  • [Vue.js 3.0] Guide – Scaling Up – State Management
    [Vue.js 3.0] Guide – Scaling Up – State Management ... [详细]
author-avatar
十分风格的功夫_723
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有