scipy.stats常见概率分布正态分布与泊松分布

作者：老王福_640 | 来源：互联网 | 2023-09-25 16:56

常见分布总结统计工作中几个常用用法在python统计函数库scipy.stats的使用范例常见术语pdf，概率密度函数（ProbabilityDe

常见分布

总结统计工作中几个常用用法在python统计函数库scipy.stats的使用范例

常见术语

pdf&＃xff0c;概率密度函数&＃xff08;Probability Density Function&＃xff09;&＃xff0c;连续型随机变量的概率。
cdf&＃xff0c;累积分布函数&＃xff08;Cumulative Distribution Function&＃xff09;&＃xff0c;pdf的积分。
ppf&＃xff0c;百分点函数&＃xff08;Percent Point Function&＃xff09;&＃xff0c;cdf的逆函数。
pmf&＃xff0c;概率质量函数&＃xff08;Probability Mass Function&＃xff09;&＃xff0c;离散型随机变量的概率。
sf&＃xff0c;残存函数&＃xff08;Survival function&＃xff09;&＃xff0c;它的值为&＃xff08;1-CDF&＃xff09;
isf&＃xff0c;逆残存函数&＃xff08;Inverse survival function&＃xff09;&＃xff0c;sf的逆函数

常见随机分布

名称	含义
uniform	均匀分布
norm	正态分布
t	学生T分布
f	F分布
poisson	泊松分布
bernoulli	伯努利分布
binom	二项分布
expon	指数分布
chi2	卡方分布

下面我们以正态分布&＃xff08;Norm&＃xff09;和泊松分布&＃xff08;Poisson&＃xff09;为例做详细的介绍

1.正态分布&＃xff08;Norm&＃xff09;

norm &＃61; scipy.stats.norm(loc&＃61;0, scale&＃61;1)

正态分布&＃xff0c;属于连续性概率分布函数&＃xff0c; loc 表示均值&＃xff0c;scale 表示标准差。其概率密度函数为&＃xff1a;

在这里插入图片描述

x &＃61; np.linspace(-1.5, 1.5, 100) labels &＃61; [] f_list &＃61; [stats.norm.pdf, stats.norm.cdf, stats.norm.ppf] plt.figure(dpi&＃61;150) for f in f_list: labels.append(f) y &＃61; f(x, loc&＃61;0, scale&＃61;0.5) #标准正态分布&＃xff0c;均值0&＃xff0c;标准差0.5 plt.tick_params(axis&＃61;&＃39;both&＃39;, labelsize&＃61;14) plt.plot(x, y) plt.legend(labels&＃61;[&＃39;pdf&＃39;, &＃39;cdf&＃39;, &＃39;ppf&＃39;], loc&＃61;&＃39;best&＃39;) plt.title("Normal distribution")

在这里插入图片描述

import matplotlib.pyplot as plt import scipy.stats as stats import numpy as np import math x &＃61; np.linspace(-5, 5, 1000) labels &＃61; [] mu_list &＃61; [0, 0, 0, -2] sigma_list &＃61; [0.2, 1.0, 5.0, 0.5] plt.figure(dpi&＃61;150) for mu, sigma in zip(mu_list, sigma_list): labels.append(&＃39;μ&＃61;{}, σ²&＃61;{}&＃39;.format(mu, sigma)) y &＃61; stats.norm.pdf(x, loc&＃61;mu, scale&＃61;math.sqrt(sigma)) plt.axis([-5, 5, 0, 1.0]) plt.tick_params(axis&＃61;&＃39;both&＃39;, labelsize&＃61;14) plt.plot(x, y) plt.legend(labels&＃61;labels, loc&＃61;&＃39;best&＃39;) plt.show()

在这里插入图片描述

连续随机变量对象的方法

rvs&＃xff1a;产生服从这种分布的一个样本&＃xff0c;对随机变量进行随机取值&＃xff0c;可以通过size参数指定输出的数组大小。

from scipy import stats rv_norm&＃61;stats.norm.rvs(loc &＃61; 5,scale &＃61; 1,size &＃61;(2,2)) # array([[4.75695311, 5.71218072], [6.05233184, 5.56499171]]) rv_norm&＃61;stats.norm.rvs(loc &＃61; 5,scale &＃61; 1,size &＃61;6) # array([3.39791064, 5.18353263, 2.38873254, 5.00970607, 4.36979662, 4.16425798])

pdf&＃xff1a;随机变量的概率密度函数。产生对应x的这种分布的y值

# 比如我们想知道标准正态分布得到0的概率。 st.norm.pdf(x&＃61;0,loc&＃61;0,scale&＃61;1) 0.3989422804014327

cdf:随机变量的累积分布函数&＃xff0c;它是概率密度函数的积分&＃xff08;也就是x时p(X

x&＃61;st.norm.cdf(0.842,loc&＃61;0,scale&＃61;1) y&＃61;st.norm.cdf(1.6449,loc&＃61;0,scale&＃61;1) z&＃61;st.norm.cdf(2.33,loc&＃61;0,scale&＃61;1) print(x,y,z) 0.8001060232739432 0.9500047825316537 0.9900969244408357
问题&＃xff1a;正态分布的3σ原则为&＃xff1a;数值分布在&＃xff08;μ-σ,μ&＃43;σ)中的概率为0.6827&＃xff1b;数值分布在&＃xff08;μ-2σ,μ&＃43;2σ)中的概率为0.9545&＃xff1b;数值分布在&＃xff08;μ-3σ,μ&＃43;3σ)中的概率为0.9973&＃xff0c;可以认为&＃xff0c;Y的取值几乎全部集中在&＃xff08;μ-3σ,μ&＃43;3σ)区间内&＃xff0c;超出这个范围的可能性仅占不到0.3%。
证明如下&＃xff1a;

x&＃61;st.norm.cdf(1,loc&＃61;0,scale&＃61;1) y&＃61;st.norm.cdf(2,loc&＃61;0,scale&＃61;1) z&＃61;st.norm.cdf(3,loc&＃61;0,scale&＃61;1) print(x-(1-x),y-(1-y),z-(1-z)) 0.6826894921370859 0.9544997361036416 0.9973002039367398
ppf:累积分布函数的反函数。q&＃61;0.01时&＃xff0c;ppf就是p(X

inv_z095&＃61;st.norm.ppf(0.95) inv_z099&＃61;st.norm.ppf(0.99) inv_z080&＃61;st.norm.ppf(0.80) print(inv_z080,inv_z095,inv_z099) 0.8416212335729143 1.6448536269514722 2.3263478740408408
interval&＃xff1a;中位数周围面积相等的置信区间

# 证明数值分布在&＃xff08;μ-2σ,μ&＃43;2σ)中的概率为0.9545 interval&＃61;st.norm.interval(0.9544997361036416,loc&＃61;0,scale&＃61;1) interval Out[56]: (-2.0000000000000004, 2.0000000000000004) st.norm.interval(0.95,loc&＃61;0,scale&＃61;1) Out[57]: (-1.959963984540054, 1.959963984540054) # 1.96
fit:对一组随机取样进行拟合&＃xff0c;找出最适合取样数据的概率密度函数的系数。如stats.norm.fit(x)就是将x看成是某个norm分布的抽样&＃xff0c;求出其最好的拟合参数&＃xff08;mean, std&＃xff09;连续分布函数特有方法

import numpy as np from scipy import stats data &＃61; stats.norm.rvs(size&＃61;1000, random_state&＃61;3) # 生成随机数 print(np.mean(data), np.std(data)) print(stats.norm.fit(data)) 0.017284332980834295 1.0084018990512724 (0.017284332980834295, 1.0084018990512724)
泊松分布&＃xff08;Poisson&＃xff09;

首先要清楚&＃xff0c;泊松分布是离散的&＃xff0c;也就是说我接到骚扰电话次数必须是整数&＃xff0c;要么就是15次&＃xff0c;要么就是16次…,而不会是15.5次。

均值方差&＃xff1a;泊松分布的均值和方差都是 λ。

使用poisson.rvs(mu, size) 函数生成服从泊松分布数据&＃xff0c;给定均值和样本大小&＃xff1a;

from scipy import stats data &＃61; stats.poisson.rvs(mu&＃61;2, size&＃61;10, random_state&＃61;5343) # data # array([2, 0, 3, 1, 1, 2, 3, 3, 4, 1], dtype&＃61;int64)
泊松分布属于离散型概率分布函数&＃xff0c; 其概率质量函数为poisson.pmf(k, mu)
上述概率质量函数以“标准化”形式定义。要移动分布&＃xff0c;请使用loc参数。具体来说&＃xff0c;就是泊松pmf&＃xff08;k&＃xff0c;mu&＃xff0c;loc&＃xff09;等同于泊松。pmf&＃xff08;k-loc&＃xff0c;mu&＃xff09;

# 某商店每天平均有三位顾客&＃xff0c;某天恰好有5人的概率&＃xff1a; from scipy.stats import poisson poisson.pmf(k&＃61;5, mu&＃61;3) # 结果为 0.100819
使用poisson.cdf(k, mu)及计算泊松分布的累积分布函数值

# 某商店平均每天卖7个足球&＃xff0c;那么某天卖出足球数量小于5的概率&＃xff1a; from scipy.stats import poisson # 计算累积概率 poisson.cdf(k&＃61;4, mu&＃61;7) # 结果为 0.172992 # 某商店平均每天卖15个罐头&＃xff0c;则某天卖出罐头超过20听的概率&＃xff1a; # 1减去累积概率 1-poisson.cdf(k&＃61;20, mu&＃61;15) # 结果为 0.082971
poisson.ppf(q, mu, loc&＃61;0)累积分布函数的反函数

stats.poisson.ppf(q&＃61;0.95, mu&＃61;3, loc&＃61;0) Out[58]: 6.0 stats.poisson.ppf(q&＃61;0.95, mu&＃61;5, loc&＃61;0) Out[59]: 9.0
泊松分布图像绘制

# IMPORTS import numpy as np import scipy.stats as stats import matplotlib.pyplot as plt import matplotlib.style as style from IPython.core.display import HTML # PLOTTING CONFIG style.use(&＃39;fivethirtyeight&＃39;) plt.rcParams["figure.figsize"] &＃61; (14, 7) plt.figure(dpi&＃61;100) # PDF plt.bar(x&＃61;np.arange(20), height&＃61;(stats.poisson.pmf(np.arange(20), mu&＃61;5)), width&＃61;.75, alpha&＃61;0.75 ) # CDF plt.plot(np.arange(20), stats.poisson.cdf(np.arange(20), mu&＃61;5), color&＃61;"#fc4f30", ) # LEGEND plt.text(x&＃61;8, y&＃61;.45, s&＃61;"pmf (normed)", alpha&＃61;.75, weight&＃61;"bold", color&＃61;"#008fd5") plt.text(x&＃61;8.5, y&＃61;.9, s&＃61;"cdf", alpha&＃61;.75, weight&＃61;"bold", color&＃61;"#fc4f30") # TICKS plt.xticks(range(21)[::2]) plt.tick_params(axis&＃61;&＃39;both&＃39;, which&＃61;&＃39;major&＃39;, labelsize&＃61;18) plt.axhline(y&＃61;0.005, color&＃61;&＃39;black&＃39;, linewidth&＃61;1.3, alpha&＃61;.7) # TITLE, SUBTITLE & FOOTER plt.text(x&＃61;-2.5, y&＃61;1.25, s&＃61;"Poisson Distribution - Overview", fontsize&＃61;26, weight&＃61;&＃39;bold&＃39;, alpha&＃61;.75) plt.text(x&＃61;-2.5, y&＃61;1.1, s&＃61;&＃39;Depicted below are the normed probability mass function (pmf) and the cumulative density\nfunction (cdf) of a Poisson distributed random variable $ y \sim Poi(\lambda) $, given $ \lambda &＃61; 5 $.&＃39;, fontsize&＃61;19, alpha&＃61;.85) # 调整空白 plt.subplots_adjust(left&＃61;0.1, bottom&＃61;0.2, right&＃61;0.9, top&＃61;0.8, wspace&＃61;0.5, hspace&＃61;0.5) plt.show()

x &＃61; np.arange(20) mu_list &＃61; [1, 5, 10] plt.figure(dpi&＃61;150) for mu in mu_list: y &＃61; stats.poisson.pmf(x, mu&＃61;mu) plt.axis([0, 20, 0, 0.4]) plt.tick_params(axis&＃61;&＃39;both&＃39;, labelsize&＃61;14) plt.scatter(x, y) plt.plot(x, y,label&＃61;&＃39;μ&＃61;{}&＃39;.format(mu)) plt.legend(loc&＃61;&＃39;best&＃39;) plt.show()

参考连接

Scipy教程 - 统计函数库scipy.stats
Python概率分布大全&＃xff08;含可视化&＃xff09;

ci

python

pdf

function

io

int

label

list

import

写下你的评论吧 !

吐个槽吧,看都看了

会员登录 | 用户注册

推荐阅读

int
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新   2023-12-09 08:30:08

datetime
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新   2023-12-12 17:40:14

int
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新   2023-12-13 12:14:55

int
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新   2023-12-14 19:49:05

grid
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新   2023-12-13 16:05:14

int
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新   2023-12-13 11:21:32

grid
解决python matplotlib画水平直线的问题

本文介绍了在使用python的matplotlib库画水平直线时可能遇到的问题，并提供了解决方法。通过导入numpy和matplotlib.pyplot模块，设置绘图对象的宽度和高度，以及使用plot函数绘制水平直线，可以解决该问题。 ... [详细]

蜡笔小新   2023-12-12 20:24:31

int
Day2列表、字典、集合操作详解

本文详细介绍了列表、字典、集合的操作方法，包括定义列表、访问列表元素、字符串操作、字典操作、集合操作、文件操作、字符编码与转码等内容。内容详实，适合初学者参考。 ... [详细]

蜡笔小新   2023-12-12 14:14:34

int
使用pymysql的Python无法向mysql数据库中的表添加字段

WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]

蜡笔小新   2023-12-12 13:45:10

int
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新   2023-12-12 13:27:42

int
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新   2023-12-12 11:51:07

int
Python拼接字符串的七种方式

这篇文章主要介绍了Python拼接字符串的七种方式，包括使用%、format()、join()、f-string等方法。每种方法都有其特点和限制，通过本文的介绍可以帮助读者更好地理解和运用字符串拼接的技巧。 ... [详细]

蜡笔小新   2023-12-12 11:15:18

int
IOS开发之短信发送与拨打电话的方法详解

本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式，一种是使用系统底层发送，虽然无法自定义短信内容和返回原应用，但是简单方便；另一种是使用第三方框架发送，需要导入MessageUI头文件，并遵守MFMessageComposeViewControllerDelegate协议，可以实现自定义短信内容和返回原应用的功能。 ... [详细]

蜡笔小新   2023-12-11 20:15:47

int
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新   2023-12-10 19:28:59

int
[echarts] 同指标对比柱状图相关的知识介绍及应用示例

本文由编程笔记小编为大家整理，主要介绍了echarts同指标对比柱状图相关的知识，包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例，展示了如何使用echarts制作同指标对比柱状图，并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]

蜡笔小新   2023-12-09 10:02:11

老王福_640

这个家伙很懒，什么也没留下！

Tags | 热门标签

hook

php5

instance

timezone

format

main

actionscrip

post

buffer

list

filter

string

export

schema

python

js

c语言

hashcode

shell

javascript

default

php7

int

vbscript

grid

solr

triggers

require

datetime

testing

RankList | 热门文章

1每日一皮：举一反三，这么聪明的客户可不多见了...

2火狐浏览器如何更换搜索引擎模式？

3肖亚男 201909103 命令行和控制台

4程序员从小工到专家阅读笔记之三

5如何将word批量重命名为不同文件名？

6摩拜单车进不去是什么原因？进不去解决方法介绍

7一个充满玫瑰花香的格力

8二战德国党卫军38个师：各师师徽标志，番号及编制简介（上篇）

9手机怎么设置降低减少流量消耗，防止流量偷跑？:设置手机流量

10【数据处理】PS动作功能（附：下雨效果）

11dvd清洗碟效果好吗_盖煤网效果好吗？

12中职计算机专业教学不足,浅谈中职计算机专业教学的现状与对策

13win7系统触摸关闭不了怎么办？:win7触控无法禁用

14jump大乱斗怎么解锁宇智波斑

15WIN7的系统WORD出现已停止工作打不开了怎么办? word已停止工作打不开怎么办