python机器学习之数据探索

作者：张琇萍家云 | 来源：互联网 | 2023-10-16 17:06

🐱今天我们来讲解数据建模之前需要处理的工作，也就是数据探索的过程，很多同学会说，不就是处理缺失值，异常值&#

&＃x1f431;今天我们来讲解数据建模之前需要处理的工作&＃xff0c;也就是数据探索的过程&＃xff0c;很多同学会说&＃xff0c;不就是处理缺失值&＃xff0c;异常值&＃xff0c;然后标准化吗&＃xff1f;最后直接代入模型。其实大家说的也没错&＃xff0c;但是今天我想更系统地从统计学的角度来展示一下数据探索的全过程&＃xff0c;让我们接着下聊&＃x1f447;:
&＃x1f436;就如我们之前说到的&＃xff0c;机器学习也叫作统计学习&＃xff0c;是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。我们虽然在拿到数据后直接运用机器学习的模型进行训练&＃xff0c;这样也能得出效果&＃xff0c;但是当模型测试集的loss过大时&＃xff0c;你是否想过模型分布不一致&＃xff0c;模型不够复杂&＃xff0c;模型的optimization不够好等问题.

数据探索流程&＃xff1a;

- 1.查看数据集
- 2.缺失值处理
- 3.异常值的处理
- 4.判断高斯分布
- 5.训练集和测试集的分布
- 6.判断线性相关
- 7.变量的相关性
- 8.Box-Cox变换

1.查看数据集

数据集的查看这一部分就很简单

#导入数据&＃xff0c;编码方式为utf-8&＃xff0c;每个字段的分割符为一个tab import pandas as pd train_data&＃61;pd.read_csv(r"C:\Users\Administrator\Desktop\zhengqidata\zhengqi_train.txt",encoding&＃61;"utf-8",sep&＃61;"\t") test_data&＃61;pd.read_csv(r"C:\Users\Administrator\Desktop\zhengqidata\zhengqi_test.txt",encoding&＃61;"utf-8",sep&＃61;"\t") #查看数据集的基本信息 train_data.info()

在这里插入图片描述

#查看训练集统计信息主要包括样本数、均值、标准差、最大值&＃xff0c;最小值、分位点等信息 train_data.describe()

数据集信息的展示&＃xff1a;
在这里插入图片描述

#查看前几列数据 train_data.head()

结果如下&＃xff1a;
在这里插入图片描述

2.缺失值处理

对于数据中缺失值的处理主要分为以下几个方面&＃xff1a;

删除缺失值&＃xff1a;将含有缺失值的行删除
填补缺失值&＃xff1a;利用平均数、众数和中位来填补&＃xff0c;也可以使用预测模型来填补。

3.异常值的处理

异常值是指远远偏离整个样本总体的观测值&＃xff1b;异常值我们通常采用箱线图来处理&＃xff0c;处在上下限之外的数据都都属于异常值。处理的方式&＃xff1a;

删除&＃xff1a;如果是由于输入误差、数据处理误差引起的异常值&＃xff0c;或者异常值很小&＃xff0c;则可以直接将其删除。
转换&＃xff1a;数据转换可以消除异常值&＃xff0c;如对数据取对数会减轻由极值引起的变化。
填充:就像处理缺失值一样&＃xff0c;我们可以对异常值进行修改&＃xff0c;如使用平均值&＃xff0c;中值或者其他方法进行填充。
区别对待

#箱线图&＃xff1a;箱线图是用来处理异常值值的&＃xff0c;通常将远远偏离整个样本总体的观测值称为异常值 #先画出v0特征的箱线图 fig&＃61;plt.figure(figsize&＃61;(4,6))#指定画布的宽度和高度 sns.boxplot(train_data[&＃39;V0&＃39;],orient&＃61;"v",width&＃61;0.5)

我们先画出一个特征的箱线图

在这里插入图片描述

画出所有特征的箱线图

#把所有特征的箱线图画出来 column&＃61;train_data.columns.tolist() plt.figure(figsize&＃61;(80,60)) for i in range(len(column)):plt.subplot(6,8,i&＃43;1)#将画布分割为6行8列sns.boxplot(train_data[column[i]],orient&＃61;"v",width&＃61;0.5)#每一个小区域画出箱型图plt.xlabel(column[i],fontsize&＃61;36)#x轴的注释为xlabel plt.show()

结果如下&＃xff1a;
在这里插入图片描述

4.判断高斯分布

直方图是用来描述数据的分布形状&＃xff0c;QQ图可以判断数据分布是否属于正态分布。

#直方图和QQ图 #QQ图是指数据的分位数和正态分布的分位数对比参照的图&＃xff0c;如果数据符合正态分布&＃xff0c;所有的点都会落在直线上。 #我们首先绘制V0变量的统计分布 plt.figure(figsize&＃61;(10,5)) plt.subplot(1,2,1) sns.distplot(train_data["V0"],fit&＃61;stats.norm)#fit&＃61;stats.norm代表标准正态分布 plt.subplot(1,2,2) stats.probplot(train_data["V0"],plot&＃61;plt)

结果如下&＃xff1a;
在这里插入图片描述
将所有的变量都判断一下&＃xff1a;

#画出所有函数的直方图和QQ图 plt.figure(figsize&＃61;(256,128)) i&＃61;0 for col in column:i&＃43;&＃61;1plt.subplot(6*2,8*2,i)sns.distplot(train_data[col],fit&＃61;stats.norm)plt.xlabel(col,fontsize&＃61;36)i&＃43;&＃61;1plt.subplot(6*2,8*2,i)stats.probplot(train_data[col],plot&＃61;plt) plt.show()

在这里插入图片描述

5.训练集和测试集的分布

训练集和测试集分布不一致会影响模型训练的结果。我们可以使用KDE的方法来判断训练集和测试集来判断是否属于一个分布。

#KDE分布图 #核密度估计&＃xff0c;可以理解为是对直方图的加窗平滑&＃xff0c;通过绘制KDE分布图&＃xff0c;可以查看并对比训练集和测试级中特征变量的分布情况&＃xff0c;发现两个数据集中分布不一致的情况&＃xff01; plt.figure(figsize&＃61;(8,4),dpi&＃61;150) ax&＃61;sns.kdeplot(train_data["V0"],color&＃61;"Red",shade&＃61;True) ax&＃61;sns.kdeplot(test_data["V0"],color&＃61;"blue",shade&＃61;True) ax.set_xlabel("V0") ax.set_ylabel("Frequency") ax&＃61;ax.legend(["train","test"]) plt.show()

结果如下&＃xff1a;
在这里插入图片描述
将多个表都画出来

#画出所有函数的kde图&＃xff0c;需要注意的是测试集没有target标签&＃xff01;所以target不要做kde plt.figure(figsize&＃61;(256,128)) for i in range(len(column)-1):ax&＃61;plt.subplot(6,8,i&＃43;1)ax&＃61;sns.kdeplot(train_data[column[i]],color&＃61;"Red",shade&＃61;True)ax&＃61;sns.kdeplot(test_data[column[i]],color&＃61;"blue",shade&＃61;True)ax.set_xlabel(column[i])ax.set_ylabel("Frequency")ax&＃61;ax.legend(["train","test"]) plt.show()

结果如下&＃xff1a;
在这里插入图片描述

6.判断线性相关

这里我们画出了一个特征与目标分布的图像。

#主要是分析变量之间的线性回归关系 plt.figure(figsize&＃61;(8,4),dpi&＃61;150) ax&＃61;plt.subplot(1,2,1) sns.regplot(x&＃61;"V0",y&＃61;"target",data&＃61;train_data,ax&＃61;ax,scatter_kws&＃61;{&＃39;marker&＃39;:&＃39;.&＃39;,&＃39;s&＃39;:3,&＃39;alpha&＃39;:0.3},line_kws&＃61;{&＃39;color&＃39;:&＃39;r&＃39;}); plt.xlabel(&＃39;V0&＃39;) plt.ylabel(&＃39;target&＃39;) ax&＃61;plt.subplot(1,2,2) sns.distplot(train_data[&＃39;V0&＃39;].dropna()) plt.xlabel(&＃39;V0&＃39;) plt.show()

在这里插入图片描述
画出所有的图像

#画出所有的变量与目标值之间的线性关系 plt.figure(figsize&＃61;(256,128)) i&＃61;0 for col in test_data.columns:i&＃43;&＃61;1ax&＃61;plt.subplot(2*6,2*8,i)sns.regplot(x&＃61;col,y&＃61;"target",data&＃61;train_data,ax&＃61;ax,scatter_kws&＃61;{&＃39;marker&＃39;:&＃39;.&＃39;,&＃39;s&＃39;:3,&＃39;alpha&＃39;:0.3},line_kws&＃61;{&＃39;color&＃39;:&＃39;r&＃39;});plt.xlabel(col)plt.ylabel(&＃39;target&＃39;)i&＃43;&＃61;1ax&＃61;plt.subplot(2*6,2*8,i)sns.distplot(train_data[col].dropna())plt.xlabel(col)plt.show()

7.变量的相关性

#变量之间的相关关系进行分析可以为后面特征工程做准备 #这里我们删除了训练集和测试集分布不一样的特征 pd.set_option(&＃39;display.max_columns&＃39;,10) pd.set_option(&＃39;display.max_rows&＃39;,10) data_train1&＃61;train_data.drop([&＃39;V5&＃39;,&＃39;V9&＃39;,&＃39;V11&＃39;,&＃39;V17&＃39;,&＃39;V22&＃39;,&＃39;V28&＃39;],axis&＃61;1) train_corr&＃61;data_train1.corr()#计算相关系数 train_corr

展示一个相关系数矩阵&＃xff1a;
在这里插入图片描述
画出热力图

#画出热力图 ax&＃61;plt.subplots(figsize&＃61;(20,16))#调整画布的大小 ax&＃61;sns.heatmap(train_corr,vmax&＃61;8,square&＃61;True,annot&＃61;True)#热力图

结果如下&＃xff1a;
在这里插入图片描述
筛选出较高的相关特征

#根据相关系数来筛选特征变量 #找寻K个特征与目标值最相关 k&＃61;10 cols&＃61;train_corr.nlargest(k,&＃39;target&＃39;)[&＃39;target&＃39;].index print("cols.index",cols) cm&＃61;np.corrcoef(train_data[cols].values.T) plt.figure(figsize&＃61;(10,10)) hm&＃61;sns.heatmap(train_data[cols].corr(),square&＃61;True,annot&＃61;True) cm

部分数据展示如下&＃xff1a;
在这里插入图片描述
找出相关系数大于0.5的特征

#找出相关系数大于0.5的特征 threshold&＃61;0.5 corrmat&＃61;train_data.corr() top_corr_features&＃61;corrmat.index[abs(corrmat["target"])>threshold] plt.figure(figsize&＃61;(10,10)) g&＃61;sns.heatmap(train_data[top_corr_features].corr(),cmap&＃61;"RdYlGn",annot&＃61;True)

这里需要说明一下&＃xff0c;相关系数只与绝对值的大小有关&＃xff0c;一般用绝对值的大小来判断相关性。
在这里插入图片描述
去除相关性较小的特征
对于相关性较小的特征&＃xff0c;我们可以去除。

# threshold&＃61;0.5 #相关系数矩阵 corr_matrix&＃61; data_train1.corr().abs() drop_col&＃61;corr_matrix[corr_matrix["target"]<threshold].index data_all.drop(drop_col,axis&＃61;1,inplace&＃61;True)

8.Box-Cox变换

Box-Cox变化是统计建模中一种常用的建模方法&＃xff0c;主要是用于在连续的响应变量不满足正态分布时&＃xff0c;可以采用Box-Cox变换&＃xff0c;使线性回归模型在满足线性、正态性、独立性及方差齐性的同时又不丢失信息。但在Box-Cox变换之前&＃xff0c;需要对数据进行归一化&＃xff01;

#box-cox变换&＃xff01;将数据转换为满足正态分布的数据 #Box-cox变换是统计建模中常用的一种数据转换的方式。在联系的响应变量不满足正态分布是可以使用该变化&＃xff0c;这一变换可以使线性回归模型在满足线性、正态性、独立性及方差齐性的同时&＃xff0c;又不丢失信息。 #变换之前需要做归一化 drop_columns&＃61;[&＃39;V5&＃39;,&＃39;V9&＃39;,&＃39;V11&＃39;,"V17","V22","V28"]#删除分布不均的数据 train_x&＃61;train_data.drop([&＃39;target&＃39;],axis&＃61;1) #data_all&＃61;pd.concat([train_data,test_data],axis&＃61;0,ignore_index&＃61;True) data_all&＃61;pd.concat([train_x,test_data]) data_all.drop(drop_columns,axis&＃61;1,inplace&＃61;True) data_all.head()

关于数据的归一化处理&＃xff0c;我们有以下几点需要注意;

可以将训练集和测试集合并之后一起做归一化。
可以分开对数据进行归一化处理。不过前提是测试集和训练数据分布一致。

合并归一化

#合并之后进行归一化 cols_numeric&＃61;list(data_all.columns) def scale_data(col):return (col-col.min())/(col.max()-col.min()) data_all[cols_numeric]&＃61;data_all[cols_numeric].apply(scale_data,axis&＃61;0) data_all[cols_numeric].describe()&＃96;

分开归一化

#数据分开归一化 train_data_process &＃61; train_data[cols_numeric] train_data_process &＃61; train_data_process[cols_numeric].apply(scale_data,axis&＃61;0)test_data_process &＃61; test_data[cols_numeric] test_data_process &＃61; test_data_process[cols_numeric].apply(scale_data,axis&＃61;0)

Box-Cox变换

#我们这里是对训练集和测试集一起归一化&＃xff0c;也可以分开进行归一化&＃xff0c;&＃xff08;分开&＃xff09;这种方式需要建立训练数据和测试数据分布一直的情况下&＃xff0c;建议在数据量大的情况下使用。 # 绘图显示Box-Cox变换对数据分布影响 cols_numeric_left &＃61; cols_numeric[0:13] cols_numeric_right &＃61; cols_numeric[13:] #这里是将特征分为两部分&＃xff0c;前13个为第一部分 ## Check effect of Box-Cox transforms on distributions of continuous variablestrain_data_process &＃61; pd.concat([train_data_process, train_data[&＃39;target&＃39;]], axis&＃61;1)fcols &＃61; 6 frows &＃61; len(cols_numeric_left) plt.figure(figsize&＃61;(4*fcols,4*frows)) i&＃61;0 for var in cols_numeric_left:dat &＃61; train_data_process[[var, &＃39;target&＃39;]].dropna()i&＃43;&＃61;1plt.subplot(frows,fcols,i)sns.distplot(dat[var] , fit&＃61;stats.norm);plt.title(var&＃43;&＃39; Original&＃39;)plt.xlabel(&＃39;&＃39;)i&＃43;&＃61;1plt.subplot(frows,fcols,i)_&＃61;stats.probplot(dat[var], plot&＃61;plt)plt.title(&＃39;skew&＃61;&＃39;&＃43;&＃39;{:.4f}&＃39;.format(stats.skew(dat[var]))) #计算数据集的偏度plt.xlabel(&＃39;&＃39;)plt.ylabel(&＃39;&＃39;)i&＃43;&＃61;1plt.subplot(frows,fcols,i)plt.plot(dat[var],dat[&＃39;target&＃39;],&＃39;.&＃39;,alpha&＃61;0.5)plt.title(&＃39;corr&＃61;&＃39;&＃43;&＃39;{:.2f}&＃39;.format(np.corrcoef(dat[var],dat[&＃39;target&＃39;])[0][1]))i&＃43;&＃61;1plt.subplot(frows,fcols,i)trans_var, lambda_var &＃61; stats.boxcox(dat[var].dropna()&＃43;1)trans_var &＃61; scale_data(trans_var) sns.distplot(trans_var , fit&＃61;stats.norm);plt.title(var&＃43;&＃39; Tramsformed&＃39;)plt.xlabel(&＃39;&＃39;)i&＃43;&＃61;1plt.subplot(frows,fcols,i)_&＃61;stats.probplot(trans_var, plot&＃61;plt)plt.title(&＃39;skew&＃61;&＃39;&＃43;&＃39;{:.4f}&＃39;.format(stats.skew(trans_var))) #归一化后&＃xff0c;偏度明显变小&＃xff0c;相关性变化不大plt.xlabel(&＃39;&＃39;)plt.ylabel(&＃39;&＃39;)i&＃43;&＃61;1plt.subplot(frows,fcols,i)plt.plot(trans_var, dat[&＃39;target&＃39;],&＃39;.&＃39;,alpha&＃61;0.5)plt.title(&＃39;corr&＃61;&＃39;&＃43;&＃39;{:.2f}&＃39;.format(np.corrcoef(trans_var,dat[&＃39;target&＃39;])[0][1]))

在这里插入图片描述
做完这些&＃xff0c;你对数据就有了大致的了解&＃xff0c;接下来就可以做特征工程了&＃xff01;

推荐阅读

php
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
format
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
byte
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
format
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
bit
词根词缀解析：greg、hap、helio及其他词源故事

本文基于刘洪波老师的《英文词根词缀精讲》，深入探讨了多个重要词根词缀的起源及其相关词汇，帮助读者更好地理解和记忆英语单词。 ... [详细]

蜡笔小新 2024-12-27 18:59:50
callback
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
format
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
python
Python - 检查列表中是否存在交替峰值

本文介绍如何使用 Python 编写程序，检查给定列表中的元素是否形成交替峰值模式。我们将探讨两种不同的方法来实现这一目标，并提供详细的代码示例。 ... [详细]

蜡笔小新 2024-12-27 15:40:11
version
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
foreach
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
version
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
format
基于机器学习的人脸识别系统实现

本文介绍了一种使用机器学习技术构建人脸识别系统的实践案例。通过结合Python编程语言和深度学习框架，详细展示了从数据预处理到模型训练的完整流程，并提供了代码示例。 ... [详细]

蜡笔小新 2024-12-22 16:01:32
format
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
format
深入理解 JMeter 定时器

本文详细介绍了JMeter中定时器的功能和使用方法，探讨了其在性能测试中的重要性，并结合实际案例解释了如何合理配置定时器以模拟真实的用户行为。文章还涵盖了定时器的执行顺序及其与其他元件的相互作用。 ... [详细]

蜡笔小新 2024-12-20 13:46:54
format
python时间序列之ADF检验(1)

读取数据，pd.read_csv默认生成DataFrame对象，需将其转换成Series对象DataFrame和Series是pandas中最常见的2 ... [详细]

蜡笔小新 2024-12-19 18:56:32

张琇萍家云

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章