当前位置: 开发笔记 > 编程语言 > 正文

2020.8.10_p4

作者：月光女孩2602906135_166 | 来源：互联网 | 2023-05-17 19:13

p344-1假设检验探索性数据分析最重要的是将把数据全貌展现本章重点：属性与属性之间常见的联系与分析方法假设检验：根据一定的假设条件，从样本推断总体或推断样本与样本之间的方法做出一

p34 4-1 假设检验

《2020.8.10_p4》

探索性数据分析最重要的是将把数据全貌展现本章重点：属性与属性之间常见的联系与分析方法

《2020.8.10_p4》

假设检验：根据一定的假设条件，从样本推断总体或推断样本与样本之间的方法做出一个假设，根据已知的分布性质，推断该假设成立的概率有多大

《2020.8.10_p4》

假设检验方法原假设符合分布，备择假设不符合分布选择检验统计量统计量，根据数据的均值、方差等性质，构造的转换函数，构造函数的目的是让数据符合已知的分布比较容易解决的格式显著性水平和相似度的和为1 比如确定了某数据属性有95%概率符合某分布，则其显著性水平为5% 显著性水平一般是人为定的值，值越低，对数据和分布的契合程度就越高根据计算的统计量以及要比较的分布进行判断判断思路有两种：根据区间估计方法；计算p值，直接和显著性水平相比较

《2020.8.10_p4》

抽样某台机器产出的洗衣服是否符合规格进行假设检验 1、确定原假设和备择假设，原假设应尽可能接近某分布原假设 H0：样本是符合... 备择假设 H1:样本不符合均值500g,标准差2g的正态分布 2、 3、显著性水平：0.05，一旦确定显著性水平，结束域也就确定了95% 4、计算检验统计量，这里是2.23，也就是箭头指向的位置，这样就确定了p值，比这个结果更差的概率，从这个点开始到无穷大，计算累积概率，是0.013 这个是单边的p值，双边检验的p值，是0.026

《2020.8.10_p4》

p34 4-2 卡方检验

假设检验的方法有很多，这些检验的方法区别一般取决于检验统计量的选取上，卡方检验，T分布检验，F检验检验流程是一样的，只是检验时使用的统计量不同，应用场景也有差异 T分布检验：用来比较两组样本分布是否一致，比如临床药物检验 F检验常用在方差分析卡方检验：这里假设-->是否化妆与性别无关

《2020.8.10_p4》

f表示的是实际值 np理论值分布比如这里男士化妆实际值是15，而理论值是55

《2020.8.10_p4》

若p=0.05,则卡方值不大于3.841，而这里计算的卡方值是129.3 结论是：性别与化妆与否有很大关系，原假设是否化妆与性别没有关系就拒绝掉了卡方检验常用来检验两个因素有没有比较强的联系

p35 4-3 方差检验

《2020.8.10_p4》

之前实例只是研究一两个样本若涉及的样本较多，使用方差检验，因其涉及F分布，故也叫F检验实例：有三组电池，查看其寿命的均值是否有差别，使用方差检验 m组，共n个采样：m就是3，n是15(所有数据量总和)

《2020.8.10_p4》

一般情况下，SS指的都是平方和 SST（总离差平方和）：反映了全部试验数据之间的差异 SSM（组间离差平方和）：反映了每组数据均值和总平均值的误差 SSE（组内离差平方和）：反映了组内数据和组内平均的随机误差 SST=SSE+SSM

《2020.8.10_p4》

均值是有差异的并不是没有差异的

p36 4-4 相关系数

相关系数是衡量两组数据变化趋势相关系数有正相关、负相关和不相关之分相关系数越大，越接近于1，两组数据的变化趋势越正向同步；相关系数越小，越接近于-1，两组数据的变化趋势越反向同步；相关系数趋近于0，则两组数据没有相关关系

常用的相关系数有两种 1、Pearson correlation coefficient（皮尔逊相关系数）分子是两组数据的协方差，分母是两组数据的标准差的积

《2020.8.10_p4》

spearman只和名次差有关，和具体的数据关系不大

p37 4-5 线性回归

《2020.8.10_p4》

因变量与自变量是线性关系，则为线性回归线性回归常用解法：最小二乘法

《2020.8.10_p4》

线性回归效果判定，有关键指标和残差不相关决定系数越接近1，说明回归效果越好 e残差(预测值与实际值差) DW范围为[0,4] DW=2 代表残差不相关接近于4代表残差正相关接近于0代表残差负相关好的回归残差不相关

p38 4-6 主成分分析

《2020.8.10_p4》

表中有四个维度，每个维度都是一个属性维度有主次之分，维度A就不是主要维度，维度B区分度比较大，可做主要维度

《2020.8.10_p4》

奇异值分解也是线性降维与成分提取的思路

p40 4-7 编码实现

1、

《2020.8.10_p4》

2、卡方检验

《2020.8.10_p4》

使用python实现卡方检验

《2020.8.10_p4》

3、独立t分布检验

独立t分布检验主要检验两组值的均值是否有较大差异性

《2020.8.10_p4》

4、方差检验

《2020.8.10_p4》

5、qq图

参考链接1:QQ-plot图

参考链接2：QQ plot图——评价你的统计模型是否合理

QQ图的主要作用是判断样本是否近似于某种类型的分布，或者验证两组数据是否来自同一分布。这里的“QQ”是两个Quantiles的大写字母，即两个分位数。 qq默认检验一个分布是否为正态分布曲线基本在x轴与y轴角平分线上，基本可认定这个是正态分布

《2020.8.10_p4》

6、相关系数 pandas实现

《2020.8.10_p4》

7、PCA变换

《2020.8.10_p4》

p41 4-8 交叉分析方法与实现

《2020.8.10_p4》

交叉分析程序1

import pandas as pd import numpy as np import scipy.stats as ss import matplotlib.pyplot as plt import seaborn as sns df=pd.read_csv("./data/HR-Copy.csv") # HR-Copy.csv去掉了异常值 # 查看各个部门离职率是否有差异使用独立t检验方法思路：得到部门之间的离职分布，两两间求t检验统计量，并求p值。先求出各个部门的离职分布 dp_indices=df.groupby(by="department").indices # indices属性得到分组后的索引 print(df_indices) sales_values=df["left"].iloc[dp_indices["sales"]].values print(sales_values) technical_values=df["left"].iloc[dp_indices["technical"]].values print(technical_values) print(ss.ttest_ind(sales_values,technical_values)) # 打印出p值 print(ss.ttest_ind(sales_values,technical_values)[1]) # 只打印出p值 dp_keys=list(dp_indices.keys()) # 所有的key必须加上list才能转为数组 dp_t_mat=np.zeros((len(dp_keys),len(dp_keys))) # 初始化矩阵 for i in range(len(dp_keys)): for j in range(len(dp_keys)): p_value = ss.ttest_ind(df["left"].iloc[dp_indices[dp_keys[i]]].values, \ df["left"].iloc[dp_indices[dp_keys[j]]].values)[1] # dp_t_mat[i][j] = p_value if p_value < 0.05: dp_t_mat[i][j] = -1 else: dp_t_mat[i][j] = p_value sns.heatmap(dp_t_mat, xticklabels=dp_keys, yticklabels=dp_keys) plt.show()

《2020.8.10_p4》

交叉分析使用透视表

《2020.8.10_p4》

绘图

《2020.8.10_p4》

p42 4-9 分组分析方法与实现

分组分析两种含义 1、将数据分组后在进行分析 2、根据数据的特征将数据进行切分，分成不同的组，使得组内成员尽可能靠拢，组间成员尽可能远离分组分析常用工具钻取根据钻取方向不同，可分为向上钻取，向下钻取向下钻取：展开数据，查看数据细节的过程。比如知道一个班的平均成绩，进一步求该班中男女生平均成绩向上钻取：汇总分组数据的过程。比如知道每个学生的成绩，汇总成每个班的平均分。离散数据的分组比较容易连续数据在分组前需要进行离散化

《2020.8.10_p4》

在进行连续属性的离散化前，先看下数据分布是否有明显可区分的标志，比如将数据从小到大排列后，数据是否有明显分隔或拐点，若有，可直接分割这里的分隔，就是两个向量数据差连续属性的分组要尽可能满足相同的分组比较聚拢，不同分组比较分离特点，使用聚类

《2020.8.10_p4》

D代表目标的标注，比如HR表中我们关注员工是否会离职，D就代表是否离职 C代表我们关注的属性要比较或对比的属性，比如这张表汇总，要衡量X相对于Y是否有很好的区分度，使用下面的公式

《2020.8.10_p4》

连续值的Gini系数计算

《2020.8.10_p4》

先将表按照连续值大小进行排序

《2020.8.10_p4》

连续值分组

p43 4-10 相关分析与实现

p44 4-11 因子分析与实现

p45 4-12 本章小结

推荐阅读

copy
常用Python库整理

记录工作和学习中遇到和使用过的Python库。Target四个Level整理Collect学习Learn练习Practice掌握Master1.Python原生和功能增强1.1py ... [详细]

蜡笔小新 2024-09-26 15:52:28
instance
python如何设计工具类_常用工具类

Java的核心库提供了大量的现成的类供我们使用。本节我们介绍几个常用的工具类。Math顾名思义，Math类就是用来进行数学计算的，它提供了大量的静态 ... [详细]

蜡笔小新 2024-09-30 18:43:10
instance
ROC曲线原理及Python实现

受试者工作特征曲线（receiveroperatingcharacteristiccurve，简称ROC曲线），是比较两个分类模型好坏的可视化工具ROC曲线的作用：1.较容易地查出 ... [详细]

蜡笔小新 2024-09-30 12:36:58
string
Python 2022年面试题总结

2022年Python面试题一.Python基础二.企业面试题结束语🥇🥇🥇✅作者简介：大家好我是编程IDὌ ... [详细]

蜡笔小新 2024-09-29 17:55:05
sum
文本生成图像简要回顾 text to image synthesis

摘要文本生成图像作为近几年的热门研究领域，其解决的问题是从一句描述性文本生成与之对应的图片。近一周来，我通过阅读了近几年发表于顶会的近10篇论文，做出本文中对该方向的 ... [详细]

蜡笔小新 2024-09-29 11:02:00
string
SciKitLearn标签编码器导致错误“参数必须是字符串或数字”

我有点困惑-在这里创建ML模型。我正在尝试从“大”数据框（180列）中获 ... [详细]

蜡笔小新 2024-09-26 18:39:21
foreach
vcharts的那些坑

每次用到v-charts我都一阵头疼，因为明明是相同的功能，但是我好像每次用到的解决方法都不一样？？每次都是在api中各种查，各种尝试…直到做了个各种数据图形的需求，决定还是好好整 ... [详细]

蜡笔小新 2024-09-26 15:35:07
sum
python绘图设置正交坐标等距_Python:线性代数机器学习背后的优化原理 (五十五)...

线性代数：机器学习背后的优化原理线性代数作为数学的一个分支，广泛应用于科学和工程中，掌握好线性代数对于理解和从事机器学习算法相关工作是很有 ... [详细]

蜡笔小新 2024-09-26 10:09:12
select
系数|量纲_机器学习基础一文带你用sklearn做特征工程

篇首语：本文由编程笔记#小编为大家整理，主要介绍了机器学习基础一文带你用sklearn做特征工程相关的知识，希望对你有一定的参考价值。使用sklearn做特 ... [详细]

蜡笔小新 2024-09-26 05:57:01
sum
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
sum
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
uri
SpringBoot整合SpringSecurity+JWT实现单点登录

SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-12-11 08:21:41
string
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54
testing
注意力汇聚：NadarayaWatson 核回归

Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看， ... [详细]

蜡笔小新 2023-10-10 12:37:01
testing
seaborn箱线图_Seaborn线图的数据可视化

seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]

蜡笔小新 2023-10-10 04:04:09

月光女孩2602906135_166

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章