机器学习基础：缺失值的处理技巧（附Python代码）

作者： | 来源：互联网 | 2023-08-10 20:47

在数据分析和建模中，经常会遇到变量值缺失的情况，这是非常常见的。为了保证数据指标的完整性以及可利用性，通常我们会采取特殊的方式对其进行处理

在数据分析和建模中&＃xff0c;经常会遇到变量值缺失的情况&＃xff0c;这是非常常见的。为了保证数据指标的完整性以及可利用性&＃xff0c;通常我们会采取特殊的方式对其进行处理。

1、缺失查看

首先&＃xff0c;需要查看缺失值的缺失数量以及比例&＃xff08;#数据使用的kaggle平台上预测房价的数据&＃xff09;

import pandas as pd# 统计缺失值数量 missing&＃61;data.isnull().sum().reset_index().rename(columns&＃61;{0:&＃39;missNum&＃39;}) # 计算缺失比例 missing[&＃39;missRate&＃39;]&＃61;missing[&＃39;missNum&＃39;]/data.shape[0] # 按照缺失率排序显示 miss_analy&＃61;missing[missing.missRate>0].sort_values(by&＃61;&＃39;missRate&＃39;,ascending&＃61;False) # miss_analy 存储的是每个变量缺失情况的数据框

柱形图可视化

import matplotlib.pyplot as plt import pylab as plfig &＃61; plt.figure(figsize&＃61;(18,6)) plt.bar(np.arange(miss_analy.shape[0]), list(miss_analy.missRate.values), align &＃61; &＃39;center&＃39;,color&＃61;[&＃39;red&＃39;,&＃39;green&＃39;,&＃39;yellow&＃39;,&＃39;steelblue&＃39;])plt.title(&＃39;Histogram of missing value of variables&＃39;) plt.xlabel(&＃39;variables names&＃39;) plt.ylabel(&＃39;missing rate&＃39;) # 添加x轴标签&＃xff0c;并旋转90度 plt.xticks(np.arange(miss_analy.shape[0]),list(miss_analy[&＃39;index&＃39;])) pl.xticks(rotation&＃61;90) # 添加数值显示 for x,y in enumerate(list(miss_analy.missRate.values)):plt.text(x,y&＃43;0.12,&＃39;{:.2%}&＃39;.format(y),ha&＃61;&＃39;center&＃39;,rotation&＃61;90) plt.ylim([0,1.2])plt.show()

这样的统计计算以及可视化基本已经看出哪些变量缺失&＃xff0c;以及缺失比例情况&＃xff0c;对数据即有个缺失概况。下面将对缺失变量进行相应处理。

2、缺失处理

方式1&＃xff1a;删除

直接去除含有缺失值的记录&＃xff0c;这种处理方式是简单粗暴的&＃xff0c;适用于数据量较大&＃xff08;记录较多&＃xff09;且缺失比较较小的情形&＃xff0c;去掉后对总体影响不大。一般不建议这样做&＃xff0c;因为很可能会造成数据丢失、数据偏移。

func: df.dropna(axis&＃61;0, how&＃61;&＃39;any&＃39;, thresh&＃61;None, subset&＃61;None, inplace&＃61;False)# 1、删除‘age’列 df.drop(&＃39;age&＃39;, axis&＃61;1, inplace&＃61;True)# 2、删除数据表中含有空值的行 df.dropna()# 3、丢弃某几列有缺失值的行 df.dropna(axis&＃61;0, subset&＃61;[&＃39;a&＃39;,&＃39;b&＃39;], inplace&＃61;True)

直接去除缺失变量&＃xff0c;基于第一步我们已经知道每个变量的缺失比例&＃xff0c;如果一个变量的缺失比例过高&＃xff0c;基本也就失去了预测意义&＃xff0c;这样的变量我们可以尝试把它直接去掉。

# 去掉缺失比例大于80%以上的变量 data&＃61;data.dropna(thresh&＃61;len(data)*0.2, axis&＃61;1)

方式2&＃xff1a;常量填充

在进行缺失值填充之前&＃xff0c;我们要先对缺失的变量进行业务上的了解&＃xff0c;即变量的含义、获取方式、计算逻辑&＃xff0c;以便知道该变量为什么会出现缺失值、缺失值代表什么含义。比如&＃xff0c;‘age’ 年龄缺失&＃xff0c;每个人均有年龄&＃xff0c;缺失应该为随机的缺失&＃xff0c;‘loanNum’贷款笔数&＃xff0c;缺失可能代表无贷款&＃xff0c;是有实在意义的缺失。

全局常量填充&＃xff1a;可以用0&＃xff0c;均值、中位数、众数等填充。

平均值适用于近似正态分布数据&＃xff0c;观测值较为均匀散布均值周围&＃xff1b;中位数适用于偏态分布或者有离群点数据&＃xff0c;中位数是更好地代表数据中心趋势&＃xff1b;众数一般用于类别变量&＃xff0c;无大小、先后顺序之分。

# 均值填充 data[&＃39;col&＃39;] &＃61; data[&＃39;col&＃39;].fillna(data[&＃39;col&＃39;].means()) # 中位数填充 data[&＃39;col&＃39;] &＃61; data[&＃39;col&＃39;].fillna(data[&＃39;col&＃39;].median()) # 众数填充 data[&＃39;col&＃39;] &＃61; data[&＃39;col&＃39;].fillna(stats.mode(data[&＃39;col&＃39;])[0][0])

也可以借助Imputer类处理缺失:

from sklearn.preprocessing import Imputer imr &＃61; Imputer(missing_values&＃61;&＃39;NaN&＃39;, strategy&＃61;&＃39;mean&＃39;, axis&＃61;0) imputed_data &＃61;pd.DataFrame(imr.fit_transform(df.values),columns&＃61;df.columns) imputed_data

方式3&＃xff1a;插值填充

采用某种插入模式进行填充&＃xff0c;比如取缺失值前后值的均值进行填充&＃xff1a;

# interpolate()插值法&＃xff0c;缺失值前后数值的均值&＃xff0c;但是若缺失值前后也存在缺失&＃xff0c;则不进行计算插补。 df[&＃39;a&＃39;] &＃61; df[&＃39;a&＃39;].interpolate()# 用前面的值替换, 当第一行有缺失值时&＃xff0c;该行利用向前替换无值可取&＃xff0c;仍缺失 df.fillna(method&＃61;&＃39;pad&＃39;)# 用后面的值替换&＃xff0c;当最后一行有缺失值时&＃xff0c;该行利用向后替换无值可取&＃xff0c;仍缺失 df.fillna(method&＃61;&＃39;backfill&＃39;)#用后面的值替换

方式4&＃xff1a;KNN填充

利用knn算法填充&＃xff0c;其实是把目标列当做目标标量&＃xff0c;利用非缺失的数据进行knn算法拟合&＃xff0c;最后对目标列缺失进行预测。&＃xff08;对于连续特征一般是加权平均&＃xff0c;对于离散特征一般是加权投票&＃xff09;

fancyimpute 类

from fancyimpute import KNN fill_knn &＃61; KNN(k&＃61;3).fit_transform(data) data &＃61; pd.DataFrame(fill_knn)

sklearn类

from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressordef knn_filled_func(x_train, y_train, test, k &＃61; 3, dispersed &＃61; True):# params: x_train 为目标列不含缺失值的数据&＃xff08;不包括目标列&＃xff09;# params: y_train 为不含缺失值的目标列# params: test 为目标列为缺失值的数据&＃xff08;不包括目标列&＃xff09;if dispersed:knn&＃61; KNeighborsClassifier(n_neighbors &＃61; k, weights &＃61; "distance")else:knn&＃61; KNeighborsRegressor(n_neighbors &＃61; k, weights &＃61; "distance")knn.fit(x_train, y_train)return test.index, knn.predict(test)

方式5&＃xff1a;随机森林填充

随机森林算法填充的思想和knn填充是类似的&＃xff0c;即利用已有数据拟合模型&＃xff0c;对缺失变量进行预测。

from sklearn.ensemble import RandomForestRegressor, RandomForestClassifierdef knn_filled_func(x_train, y_train, test, k &＃61; 3, dispersed &＃61; True):# params: x_train 为目标列不含缺失值的数据&＃xff08;不包括目标列&＃xff09;# params: y_train 为不含缺失值的目标列# params: test 为目标列为缺失值的数据&＃xff08;不包括目标列&＃xff09;if dispersed:rf&＃61; RandomForestRegressor()else:rf&＃61; RandomForestClassifier()rf.fit(x_train, y_train)return test.index, rf.predict(test)

3、缺失衍生

有时候&＃xff0c;可以根据某个字段是否缺失&＃xff0c;进行新变量的衍生&＃xff0c;比如&＃xff0c;"信用卡数量"&＃xff0c;若该字段缺失&＃xff0c;代表&＃39;无信用卡&＃39;&＃xff0c;则可以根据"信用卡数量"是否缺失衍生&＃39;有无信用卡&＃39;字段&＃xff0c;这种衍生很可能是很有效果的。

4、总结

总之&＃xff0c;处理缺失值是需要研究数据规律与缺失情况来进行处理的&＃xff0c;复杂的算法不一定有好的效果&＃xff0c;因此&＃xff0c;还要具体问题具体分析&＃xff0c;尤其是要搞明白字段含义以及缺失意义&＃xff0c;这往往容易被忽略。个人经验&＃xff0c;数据处理需要去探索&＃xff0c;没有一成不变的万全之策。

作者&＃xff1a;星星之火

https://zhuanlan.zhihu.com/p/98007066

推荐阅读

get
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
get
怎么用Python写一个电信客户流失预测模型

这篇文章主要讲解了“怎么用Python写一个电信客户流失预测模型”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入， ... [详细]

蜡笔小新 2023-10-13 09:09:43
get
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
int
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
post
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
get
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
get
开发笔记:10分钟了解Android的事件分发

篇首语：本文由编程笔记#小编为大家整理，主要介绍了10分钟了解Android的事件分发相关的知识，希望对你有一定的参考价值。什么是事件分发？大家 ... [详细]

蜡笔小新 2023-10-17 11:22:42
get
语义分割系列3SegNet（pytorch实现）

SegNet手稿最早是在2015年12月投出，和FCN属于同时期作品。稍晚于FCN，既然属于后来者，又是与FCN同属于语义分割网络 ... [详细]

蜡笔小新 2023-10-17 10:14:20
hash
第八章元组与集合

目录一、元组二、集合三、集合的数学操作四、集合的相关操作五、集合间的关系六、列表、元组、集合、字典区别一、元组元组是python内置的数据结构之一， ... [详细]

蜡笔小新 2023-10-12 07:20:20
int
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
list
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
get
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
get
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
list
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
get
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56

Tags | 热门标签

RankList | 热门文章