热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【R】数据统计基础:集中趋势和离散程度及简单R语言代码

集中趋势:3种常见统计量:均值、中位数、众数均值:mean()中位数:median()众数:没有默认,要先下载R包:FinAna。之后用get.mode()离散程度常见统计量:极差

集中趋势:

3种常见统计量:均值、中位数、众数
均值: mean()
中位数:median()
众数:没有默认,要先下载R包:FinAna。之后用 get.mode()

离散程度

常见统计量:极差、四分位数、百分位数、四分位距、标准差、方差、变异系数
极差:

也称全距,一组数据最大值与最小值之差
R语言:第一种方法:先用range(),求范围;再用diff(range());
第二种方法(简单粗暴用最大最小直接求解):print(c(min(),max()))

四分位数:

将一组数据分为四部分的三个数字:下四分位数、中位数、上四分位

R语言:quantile(… ,0.25) quantile(… ,0.75)

百分位数:

将一组数据分成一百组,描述如,第35百分位数,是将下部35%的数值和上部65%的数值分开的数

四分位距(IQR):

上四分位数与下四分位数的差;反映中间50%数据的离散程度,数值越小说明中间的数据越集中,数值越大,说明中间的数据越分散。与极差相比,四分位差不受极值影响

标准差(SD):

又称标准偏差、均方差 。R语言:sd()

方差(VAR):

标准差的平方 。R语言:var()

变异系数

又称离散系数,用 标准差 除以 x的平均值(消除量纲的影响)。比较两组差异很大的数据的变异程度
R语言:先下载安装R包:sjstats, 再运行cv()

五数概括法

用以下5个数描述一组数据的分布:最小值、下四分位数、中位数、上四分位数、最大值
可以通过箱线图展示五数概括法

切比雪夫定理

对于任一分布的数据,至少有75%的数值在均值+-2个标准差以内,至少89%的数据在均值+-3个标准差以内


推荐阅读
author-avatar
miwn4_651
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有