当前位置: 开发笔记 > 编程语言 > 正文

统计分析【一】——描述性统计实现

作者：香香画室_769 | 来源：互联网 | 2023-08-14 11:35

目录一、数据统计量描述1、集中度描述1.1均值1.2众数1.3中位数2、离散度描述2.1极差2.2方差2.3标准差2.4变异系数2.5贝塞尔校正二、数据处理工具1、EXCEL函数2

- 一、数据统计量描述
- - 1、集中度描述
  - - 1.1 均值
    - 1.2 众数
    - 1.3 中位数
  - 2、离散度描述
  - - 2.1 极差
    - 2.2 方差
    - 2.3 标准差
    - 2.4 变异系数
    - 2.5 贝塞尔校正
- 二、数据处理工具
- - 1、EXCEL 函数
  - 2、EXCEL描述统计
  - 3、SQL
  - 4、R语言
  - 5、Python

一、数据统计量描述

1、集中度描述

1.1 均值

1&＃xff09;描述
一组数据的算术平均&＃xff0c;反应一组数据的集中分布趋势&＃xff0c;缺点是容易受极端值影响。
2&＃xff09;公式
在这里插入图片描述

1.2 众数

一组数据中出现次数最多的数字&＃xff0c;可能不止一个&＃xff0c;可能没有。适用于当数据具有明显集中趋势的情况。

1.3 中位数

一组数据从小到大排列&＃xff0c;位于中间的数据&＃xff0c;其中偶数个数的数据为中间两个数据的算术平均&＃xff0c;缺点是数据不敏感。

2、离散度描述

2.1 极差

最大值-最小值&＃xff0c;反应一组数据的范围大小&＃xff0c;极差越大越分散。

2.2 方差

1&＃xff09;描述
反应数据的离散程度&＃xff0c;用来度量随机变量与期望的偏差程度。
2&＃xff09;总体方差
在这里插入图片描述

2.3 标准差

1&＃xff09;描述
反应数据的分散程度&＃xff0c;为方差的算术平方根。
2&＃xff09;公式
在这里插入图片描述

2.4 变异系数

1&＃xff09;变异系数 &＃61; 标准偏差/平均数。
2&＃xff09;当需要比较两组数据的离散程度&＃xff0c;但是两组数据量级大小不一致时&＃xff0c;可以通过变异系数消除测量尺度带来的影响&＃xff0c;但是不适用于平均值较小&＃xff08;接近0&＃xff09;的情况&＃xff0c;会带来比较大的误差。
3&＃xff09;变异系数越大&＃xff0c;数据越离散。
4&＃xff09;一般来讲&＃xff0c;变异系数超过15%则考虑数据异常。
在这里插入图片描述

2.5 贝塞尔校正

在类似正态分布中&＃xff0c;样本围绕在均值附近&＃xff0c;抽取到边缘值的概率较小&＃xff0c;样本值会偏向集中&＃xff0c;因此计算出来的样本方差会较小&＃xff0c;如果以此来估计整体方差时&＃xff0c;需要进行适当放大&＃xff0c;即除数修正为N-1。

二、数据处理工具

根据总体样本的大小进行处理的工具有多种&＃xff0c;一般数据量级较少时采用EXCEL即可满足需求&＃xff0c;数量级较大时&＃xff08;百万级别以上&＃xff09;一般采用SQL、R、python进行处理&＃xff0c;须知方法只是作为满足需求的处理工具&＃xff0c;一切以满足需要的便捷性出发&＃xff0c;无需拘泥于工具本身。

1、EXCEL 函数

1.1、说明
采用 office Excel函数计算及数据分析功能。
1.2、实现

//平均值 &＃61;AVERAGE(数据区域)//众数数值型 &＃61;MODE(数据范围)//众数文本型 &＃61;INDEX(数据范围,MAX(MATCH(数据范围,数据范围,数据范围,)))//中位数 &＃61;MEDIAN(数据范围)//极差 &＃61;MAX(数据范围)-MIN&＃xff08;数据范围&＃xff09;//方差 &＃61;VAR(数据范围)//标准差 &＃61;STDEV(数据范围)//变异系数 &＃61;STDEV(数据范围)/AVERAGE(数据区域)

2、EXCEL描述统计

1&＃xff09;功能开启

功能开启&＃xff1a;文件 -》选项 -》加载项 -》转到 -》分析工具库

在这里插入图片描述

2&＃xff09;数据分析-描述统计
如果选择EXCEL的数据分析 -》描述统计功能&＃xff0c;则可以一次性将以上所有指标一次性统计输出

3、SQL

3.1、说明
采用MYSQL及Navicat。
3.2、实现

//平均数 SELECT AVG(列名) FROM 表名//众数 SELECT 列名,count(列名) as n FROM 表名 GROUP BY 列名 HAVING n >&＃61; (SELECT max(n) FROM (SELECT COUNT(列名) as nFROM 表名GROUP BY 列名)as tmp);//中位数 SELECT AVG(DISTINCT 列名) FROM (SELECT T1.列名 from 表名 T1,表名 T2 GROUP BY T1.列名 HAVING sum(CASE WHEN T2.列名>&＃61; T1.列名 THEN 1 ELSE 0 END) >&＃61; count(*)/2 and sum(case WHEN T2.列名<&＃61; T1.列名 then 1 else 0 end) >&＃61;count(*)/2) tmp//极差 SELECT max(列名),min(列名),(max(列名)-min(列名)) from 表名 //方差 SELECT VARIANCE(列名) from 表名//标准差 SELECT STDEV(列名) from 表名//变异系数 SELECT STDEV(列名)/AVG(列名) from 表名

4、R语言

4.1、说明
1&＃xff09;采用Pycharm 编辑器&＃xff08;加载R模块&＃xff09;。
2&＃xff09;加载路径&＃xff1a;File -》 Settings -》Plugins -》搜索R -》安装 R Language IntelliJ
在这里插入图片描述
4.2、实现

array <- c(1,2,3,4&＃xff0c;4,5)#中位数 mean(array)#众数 mode <- unique(array)//去重 index <- tabulate(match(array,mode))//获取因素频率 mode[index &＃61;&＃61; max(index)]//匹配所有频率最大值#中位数 median(array)#极差 max(array)-min(array)#方差 var(array)#标准差 sd(array)#变异系数 sd(array)/mean(array)

5、Python

5.1、说明
采用Pycharm 编辑器&＃xff0c;需要import 包名&＃xff08;建议采用线下安装方式&＃xff0c;即本地下载包后pip&＃xff0c;节省因网络波动导致的pip失败&＃xff09;。

numpy库说明&＃xff1a;
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库&＃xff0c;支持大量的维度数组与矩阵运算&＃xff0c;此外也针对数组运算提供大量的数学函数库。
教程指引&＃xff1a;https://www.runoob.com/numpy/numpy-tutorial.html

Scipy是世界上著名的Python开源科学计算库&＃xff0c;建立在Numpy之上。它增加的功能包括数值积分、最优化、统计和一些专用函数。 SciPy函数库在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理、稀疏矩阵等等。
5.2、实现

import numpy as np from scipy import stats array &＃61; [1,2,3,4,4,5]#平均数 print("平均数"&＃43;np.mean(array))#众数 print("众数"&＃43;stats.mode(array)[0][0])#中位数 print("中位数"&＃43;np.median(array))#极差 print("极差"&＃43;(np.max(array)-np.min(array)))#方差 print("方差"&＃43;np.var(array))#变异系数 print("变异系数"&＃43;np.std(array)/np.mean(array))#标准差 print("标准差"&＃43;np.std(array))

推荐阅读

function
关于python调试大法的信息

本文目录一览：1、pdbpython调试怎么用 ... [详细]

蜡笔小新 2023-10-16 09:34:14
install
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
testing
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
controller
IOS开发之短信发送与拨打电话的方法详解

本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式，一种是使用系统底层发送，虽然无法自定义短信内容和返回原应用，但是简单方便；另一种是使用第三方框架发送，需要导入MessageUI头文件，并遵守MFMessageComposeViewControllerDelegate协议，可以实现自定义短信内容和返回原应用的功能。 ... [详细]

蜡笔小新 2023-12-11 20:15:47
install
零基础用Python打造Android字符串资源翻译器（五）：增加图形化界面

目录 ... [详细]

蜡笔小新 2023-10-17 16:25:44
install
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
install
Pylance有哪些特性

这篇文章给大家分享的是有关Pylance有哪些特性的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。Pylance安装和其他VSC ... [详细]

蜡笔小新 2023-10-17 12:17:13
copy
IDA Pro def.h

IDApro反编译exe时生成的C文件中#include的defs.h文件在IDA目录下plugins文件夹内*Thisfilecontainsdefinition ... [详细]

蜡笔小新 2023-10-16 15:32:37
install
pycharm安装插件的方法

小编给大家分享一下pycharm安装插件的方法，相信大部分人都还不怎么了解，因此分享这边文章给大家学习，希望大家阅读完这篇文章后大所收获，下面 ... [详细]

蜡笔小新 2023-10-16 13:50:16
testing
python根据属性跳过单元测试

我们使用pythonunit ... [详细]

蜡笔小新 2023-10-16 11:59:57
testing
python模块导入红色波浪线_解决pycharm导入本地py文件时,模块下方出现红色波浪线的问题...

有时候导入本地模块或者py文件时，下方会出现红色的波浪线，但不影响程序的正常运行，但是在查看源函数文件时，会出现问题问题如下 ... [详细]

蜡笔小新 2023-10-16 09:52:18
install
1.《Python程序设计基础与应用》第1章 Python概述

第1章Python概述1.1Python语言简介（1）Python是一门跨平台、开源、免费的解释型高级动态编程语言。（2࿰ ... [详细]

蜡笔小新 2023-10-15 18:43:04
c语言
Python语言简介、环境搭建、PyCharm的安装和配置

一、Python语言简介1.1Python语言的基本概念官方对Python语言的介绍如下：Python是一款易于学习且功能强大的编程语言。它具有高效率的数据结构，能够简单又有效地实 ... [详细]

蜡笔小新 2023-10-15 15:27:02
c语言
Python根据字典中的值进行排序的实验结果

本文介绍了使用Python根据字典中的值进行排序的方法，并给出了实验结果。通过将字典转化为记录项，可以按照字典中的值进行排序操作。实验结果显示，按照值进行排序后的记录项为[('b', 2), ('a', 3)]。 ... [详细]

蜡笔小新 2023-12-14 13:19:28
c语言
Python如何调用类里面的方法

本文介绍了在Python中调用同一个类中的方法需要加上self参数，并且规范写法要求每个函数的第一个参数都为self。同时还介绍了如何调用另一个类中的方法。详细内容请阅读剩余部分。 ... [详细]

蜡笔小新 2023-12-14 12:52:55

香香画室_769

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章