热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

2020.8.10_p4

p344-1假设检验探索性数据分析最重要的是将把数据全貌展现本章重点:属性与属性之间常见的联系与分析方法假设检验:根据一定的假设条件,从样本推断总体或推断样本与样本之间的方法做出一

p34 4-1 假设检验

《2020.8.10_p4》

探索性数据分析最重要的是将把数据全貌展现
本章重点:属性与属性之间常见的联系与分析方法

《2020.8.10_p4》

假设检验:
根据一定的假设条件,从样本推断总体或推断样本与样本之间的方法
做出一个假设,根据已知的分布性质,推断该假设成立的概率有多大

《2020.8.10_p4》

假设检验方法
原假设符合分布,备择假设不符合分布
选择检验统计量
统计量,根据数据的均值、方差等性质,构造的转换函数,构造函数的目的是让数据符合已知的分布比较容易解决的格式
显著性水平和相似度的和为1
比如确定了某数据属性有95%概率符合某分布,则其显著性水平为5%
显著性水平一般是人为定的值,值越低,对数据和分布的契合程度就越高
根据计算的统计量以及要比较的分布进行判断
判断思路有两种:根据区间估计方法;计算p值,直接和显著性水平相比较

《2020.8.10_p4》

抽样某台机器产出的洗衣服是否符合规格
进行假设检验
1、确定原假设和备择假设,原假设应尽可能接近某分布
原假设 H0:样本是符合...
备择假设 H1:样本不符合均值500g,标准差2g的正态分布
2、
3、显著性水平:0.05,一旦确定显著性水平,结束域也就确定了95%
4、计算检验统计量,这里是2.23,也就是箭头指向的位置,
这样就确定了p值,比这个结果更差的概率,从这个点开始到无穷大,计算累积概率,是0.013
这个是单边的p值,双边检验的p值,是0.026

《2020.8.10_p4》《2020.8.10_p4》

p34 4-2 卡方检验

假设检验的方法有很多,这些检验的方法区别一般取决于检验统计量的选取上,
卡方检验,T分布检验,F检验
检验流程是一样的,只是检验时使用的统计量不同,应用场景也有差异
T分布检验:用来比较两组样本分布是否一致,比如临床药物检验
F检验常用在方差分析
卡方检验:这里假设-->是否化妆与性别无关

《2020.8.10_p4》

f表示的是实际值
np理论值分布
比如这里男士化妆实际值是15,而理论值是55

《2020.8.10_p4》

若p=0.05,则卡方值不大于3.841,而这里计算的卡方值是129.3
结论是:性别与化妆与否有很大关系,原假设是否化妆与性别没有关系就拒绝掉了
卡方检验常用来检验两个因素有没有比较强的联系

p35 4-3 方差检验

《2020.8.10_p4》

之前实例只是研究一两个样本
若涉及的样本较多,使用方差检验,因其涉及F分布,故也叫F检验
实例:有三组电池,查看其寿命的均值是否有差别,使用方差检验
m组,共n个采样:m就是3,n是15(所有数据量总和)

《2020.8.10_p4》

一般情况下,SS指的都是平方和
SST(总离差平方和):反映了全部试验数据之间的差异
SSM(组间离差平方和):反映了每组数据均值和总平均值的误差
SSE(组内离差平方和):反映了组内数据和组内平均的随机误差
SST=SSE+SSM

《2020.8.10_p4》《2020.8.10_p4》

均值是有差异的 并不是没有差异的

p36 4-4 相关系数

相关系数是衡量两组数据变化趋势
相关系数有正相关、负相关和不相关之分
相关系数越大,越接近于1,两组数据的变化趋势越正向同步;
相关系数越小,越接近于-1,两组数据的变化趋势越反向同步;
相关系数趋近于0,则两组数据没有相关关系

常用的相关系数有两种
1、Pearson correlation coefficient(皮尔逊相关系数)
分子是两组数据的协方差,分母是两组数据的标准差的积

《2020.8.10_p4》
《2020.8.10_p4》

spearman只和名次差有关,和具体的数据关系不大

p37 4-5 线性回归

《2020.8.10_p4》

因变量与自变量是线性关系,则为线性回归
线性回归常用解法:最小二乘法

《2020.8.10_p4》

线性回归效果判定,有关键指标和残差不相关
决定系数越接近1,说明回归效果越好
e残差(预测值与实际值差)
DW范围为[0,4] DW=2 代表残差不相关 接近于4代表残差正相关 接近于0代表残差负相关 好的回归残差不相关

p38 4-6 主成分分析

《2020.8.10_p4》

表中有四个维度,每个维度都是一个属性
维度有主次之分,维度A就不是主要维度,维度B区分度比较大,可做主要维度

《2020.8.10_p4》
《2020.8.10_p4》《2020.8.10_p4》

奇异值分解也是线性降维与成分提取的思路

p40 4-7 编码实现

1、

《2020.8.10_p4》

2、卡方检验

《2020.8.10_p4》
《2020.8.10_p4》

使用python实现卡方检验

《2020.8.10_p4》

3、 独立t分布检验

独立t分布检验 主要检验两组值的均值是否有较大差异性

《2020.8.10_p4》
《2020.8.10_p4》

4、方差检验

《2020.8.10_p4》
《2020.8.10_p4》
《2020.8.10_p4》

5、qq图

参考链接1:QQ-plot图

参考链接2:QQ plot图——评价你的统计模型是否合理

QQ图的主要作用是判断样本是否近似于某种类型的分布,或者验证两组数据是否来自同一分布。
这里的“QQ”是两个Quantiles的大写字母,即两个分位数。
qq默认检验一个分布是否为正态分布
曲线基本在x轴与y轴角平分线上,基本可认定这个是正态分布

《2020.8.10_p4》

6、相关系数 pandas实现

《2020.8.10_p4》

7、PCA变换

《2020.8.10_p4》
《2020.8.10_p4》

p41 4-8 交叉分析方法与实现

《2020.8.10_p4》
《2020.8.10_p4》

交叉分析 程序1

import pandas as pd
import numpy as np
import scipy.stats as ss
import matplotlib.pyplot as plt
import seaborn as sns
df=pd.read_csv("./data/HR-Copy.csv") # HR-Copy.csv去掉了异常值
# 查看各个部门离职率是否有差异 使用独立t检验方法 思路:得到部门之间的离职分布,两两间求t检验统计量,并求p值。先求出各个部门的离职分布
dp_indices=df.groupby(by="department").indices # indices属性得到分组后的索引
print(df_indices)
sales_values=df["left"].iloc[dp_indices["sales"]].values
print(sales_values)
technical_values=df["left"].iloc[dp_indices["technical"]].values
print(technical_values)
print(ss.ttest_ind(sales_values,technical_values)) # 打印出p值
print(ss.ttest_ind(sales_values,technical_values)[1]) # 只打印出p值
dp_keys=list(dp_indices.keys()) # 所有的key必须加上list才能转为数组
dp_t_mat=np.zeros((len(dp_keys),len(dp_keys))) # 初始化矩阵
for i in range(len(dp_keys)):
for j in range(len(dp_keys)):
p_value = ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values, \
df["left"].iloc[dp_indices[dp_keys[j]]].values)[1]
# dp_t_mat[i][j] = p_value
if p_value < 0.05:
dp_t_mat[i][j] = -1
else:
dp_t_mat[i][j] = p_value
sns.heatmap(dp_t_mat, xticklabels=dp_keys, yticklabels=dp_keys)
plt.show()

《2020.8.10_p4》

交叉分析 使用透视表

《2020.8.10_p4》
《2020.8.10_p4》

绘图

《2020.8.10_p4》
《2020.8.10_p4》

p42 4-9 分组分析方法与实现

分组分析两种含义
1、将数据分组后在进行分析
2、根据数据的特征将数据进行切分,分成不同的组,使得组内成员尽可能靠拢,组间成员尽可能远离
分组分析常用工具钻取
根据钻取方向不同,可分为向上钻取,向下钻取
向下钻取:展开数据,查看数据细节的过程。比如知道一个班的平均成绩,进一步求该班中男女生平均成绩
向上钻取:汇总分组数据的过程。比如知道每个学生的成绩,汇总成每个班的平均分。
离散数据的分组比较容易
连续数据在分组前需要进行离散化

《2020.8.10_p4》

在进行连续属性的离散化前,先看下数据分布是否有明显可区分的标志,
比如将数据从小到大排列后,数据是否有明显分隔或拐点,若有,可直接分割
这里的分隔,就是两个向量数据差
连续属性的分组要尽可能满足相同的分组比较聚拢,不同分组比较分离特点,使用聚类

《2020.8.10_p4》

D代表目标的标注,比如HR表中我们关注员工是否会离职,D就代表是否离职
C代表我们关注的属性要比较或对比的属性,比如这张表汇总,要衡量X相对于Y是否有很好的区分度,使用下面的公式

《2020.8.10_p4》

连续值的Gini系数计算

《2020.8.10_p4》

先将表按照连续值大小进行排序

《2020.8.10_p4》

连续值分组

p43 4-10 相关分析与实现

p44 4-11 因子分析与实现

p45 4-12 本章小结


推荐阅读
author-avatar
月光女孩2602906135_166
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有