dataframescala修改值_如何填补Pandas中的缺失值(机器学习入门篇)

作者：欢颜是胖妞妞08 | 来源：互联网 | 2023-09-23 16:30

在使用python里的pandas库进行数据分析工作时，很多时候我们都会遇到这样一个问题：数据缺失。这也是大部分数据分析工作所会遇到的之一。而正确处理缺

在使用python里的pandas库进行数据分析工作时&＃xff0c;很多时候我们都会遇到这样一个问题&＃xff1a;数据缺失。这也是大部分数据分析工作所会遇到的之一。而正确处理缺失值&＃xff0c;也是我们在数据分析中数据预处理环节的关键的一环。

在之前的文章中&＃xff0c;我们也介绍过关于缺失值填充的一些小技巧&＃xff1a;

侦探L&＃xff1a;如何处理Pandas里的缺失值(入门篇2)zhuanlan.zhihu.com

今天我们继续讲讲填补缺失值的其它方法。

今天的主角&＃xff1a;常用的机器学习库——sklearn库

设计的知识点&＃xff1a;

sklearn中&＃xff0c;关于缺失值填充的impute.SimpleImputer类
sklearn中&＃xff0c;随机森林回归&＃xff08;RandomForestRegressor&＃xff09;填补缺失值

一、impute.SimpleImputer基本介绍

1、类体及主要参数&＃xff1a;

sklearn.impute.SimpleImputer (missing_values&＃61;nan, strategy&＃61;’mean’, fill_value&＃61;None, verbose&＃61;0,copy&＃61;True)

它包括四个重要参数&＃xff1a;

2、使用方法&＃xff1a;

实例化&＃xff08;和类一样&＃xff09;

二、举例说明

首先我们还是先创建实验用的数据表&＃xff1a;

import pandas as pd import numpy as np df &＃61; pd.DataFrame([[np.nan, 2, np.nan, 0],[3, 4, np.nan, 1],[np.nan, np.nan, np.nan, 5],[np.nan, 3, np.nan, 4]],columns&＃61;list(&＃39;ABCD&＃39;)) df

之后&＃xff0c;导入我们的impute.SimpleImputer:

from sklearn.impute import SimpleImputer

PS&＃xff1a;使用impute.SimpleImputer类进行缺失值填充前&＃xff0c;我们先需要将其实例化。

&＃xff08;1&＃xff09;我们先尝试对整个DataFrame进行处理&＃xff0c;这里我们用的是均值&＃xff1a;

df_mean &＃61; SimpleImputer(missing_values&＃61;np.nan, strategy&＃61;&＃39;mean&＃39;) df &＃61; df_mean.fit_transform(df)

输出一下&＃xff1a;

df

type(df)

注意看此时我们原来的数据表的类型&＃xff01;已经不再是DataFrame了&＃xff0c;而是ndarray了。

当然&＃xff0c;我们可以把它再转回DataFrame型&＃xff1a;

pd.DataFrame(df)

不过我们也可以看到&＃xff0c;我们是用“均值”填充的&＃xff0c;而原数据表的第‘C’列都是nan值&＃xff0c;不存在均值&＃xff0c;因此被默认删除了。

&＃xff08;2&＃xff09;对整个数据表使用指定的数字填充&＃xff0c;这里我们选择数字9&＃xff1a;

df_0 &＃61; SimpleImputer(strategy&＃61;"constant",fill_value&＃61;9) df_cons &＃61; df_0.fit_transform(df) pd.DataFrame(df_cons)

这时&＃xff0c;数据表中只要是缺失值&＃xff0c;都被数字9给替换了。

&＃xff08;3&＃xff09;与前面整个数据表采用同一种填补方法不同&＃xff0c;下面&＃xff0c;我们尝试针对不同列&＃xff0c;采用不同的方法进行缺失值填充&＃xff1a;

首先&＃xff0c;我们建立一个新的数据表&＃xff1a;

df &＃61; pd.DataFrame([[np.nan, 2, np.nan, &＃39;a&＃39;],[3, 4, np.nan, &＃39;a&＃39;],[np.nan, np.nan, np.nan, np.nan],[np.nan, 4, np.nan, &＃39;b&＃39;]],columns&＃61;list(&＃39;ABCD&＃39;)) df

可以看到&＃xff0c;新的数据表中出现了非数值型数据。

我们的操作目标是&＃xff1a;

对A列采用均值填充&＃xff1b;
对B列采用中位数填充&＃xff1b;
对C列采用常数0填充&＃xff1b;
对D列采用众数填充。

首先&＃xff0c;第一步&＃xff0c;对我们要用的4种方法进行实例化&＃xff1a;

#均值&＃xff1a; df_mean &＃61; SimpleImputer(missing_values&＃61;np.nan, strategy&＃61;&＃39;mean&＃39;,copy&＃61;False)#中位数&＃xff1a; df_median &＃61; SimpleImputer(missing_values&＃61;np.nan, strategy&＃61;&＃39;median&＃39;,copy&＃61;False)#常数0&＃xff1a; df_0 &＃61; SimpleImputer(strategy&＃61;"constant",fill_value&＃61;0,copy&＃61;False)#众数&＃xff1a; df_most_frequent &＃61; SimpleImputer(missing_values&＃61;np.nan, strategy&＃61;&＃39;most_frequent&＃39;,copy&＃61;False)

接着&＃xff0c;对不同的列使用不同的方法&＃xff1a;

#A列 df_A &＃61; df.loc[:,&＃39;A&＃39;].values.reshape(-1,1) df.loc[:,&＃39;A&＃39;]&＃61;df_mean.fit_transform(df_A)#B列 df_B &＃61; df.loc[:,&＃39;B&＃39;].values.reshape(-1,1) df.loc[:,&＃39;B&＃39;]&＃61;df_median.fit_transform(df_B)#C列 df_C &＃61; df.loc[:,&＃39;C&＃39;].values.reshape(-1,1) df.loc[:,&＃39;C&＃39;]&＃61;df_0.fit_transform(df_C)#D列 df_D &＃61; df.loc[:,&＃39;D&＃39;].values.reshape(-1,1) df.loc[:,&＃39;D&＃39;]&＃61;df_most_frequent.fit_transform(df_D)

修改成功~

查看一下我们的修改结果&＃xff1a;

df

不错~

&＃xff08;4&＃xff09;最后&＃xff0c;给大家介绍在机器学习中&＃xff0c;另一种缺失值填充的有效方法——随机森林回归&＃xff08;RandomForestRegressor&＃xff09;填补缺失值。

首先&＃xff0c;新创建一个数据表&＃xff1a;

df &＃61; pd.DataFrame({&＃39;Country&＃39;:[12,34,23,45,34,23,12,2,3], &＃39;Income&＃39;:[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000,3000],&＃39;Age&＃39;:[50, 43, 34, 40, 25, 25, 45, 32,12],&＃39;填充列&＃39;:[2,4,7,4,5,np.nan,np.nan,np.nan,np.nan]}) df

可以看到&＃xff0c;在‘填充列’这一列出现了较多的缺失值&＃xff0c;其他列没有出现缺失值。

首先&＃xff0c;导入机器学习中的随机森林回归&＃xff08;RandomForestRegressor&＃xff09;方法&＃xff1a;

from sklearn.ensemble import RandomForestRegressor

接着&＃xff0c;将我们的数据集分成两部分&＃xff1a;

第一部分&＃xff0c;不含缺失值的其他所有列&＃xff1a;

df_full&＃61;df.drop(labels&＃61;&＃39;填充列&＃39;,axis&＃61;1) df_full

第二部分&＃xff0c;含缺失值的那一列&＃xff1a;

df_nan&＃61;df.loc[:,&＃39;填充列&＃39;] df_nan

然后&＃xff0c;区别测试集与训练集&＃xff1a;

#区别我们的训练集和测试集 Ytrain &＃61; df_nan[df_nan.notnull()] Ytest &＃61; df_nan[df_nan.isnull()] Xtrain &＃61; df_full.iloc[Ytrain.index] Xtest &＃61; df_full.iloc[Ytest.index]

接着&＃xff0c;实例化&＃xff0c;然后用随机森林回归来填补缺失值&＃xff1a;

#用随机森林回归来填补缺失值 rfc &＃61; RandomForestRegressor(n_estimators&＃61;100) rfc &＃61; rfc.fit(Xtrain, Ytrain) Ypredict &＃61; rfc.predict(Xtest)

完成~

看看我们的预测结果&＃xff08;即代替原来缺失的结果&＃xff09;&＃xff1a;

Ypredict

将结果填补到我们原来的数据表中&＃xff1a;

df_nan[df_nan.isnull()] &＃61; Ypredict

此时&＃xff0c;我们的填补过程已经全部结束&＃xff0c;让我们再次看看我们数据集填补后的样子&＃xff1a;

df

成功&＃xff01;撒花~

&＃xff08;5&＃xff09;随机森林回归&＃xff08;RandomForestRegressor&＃xff09;填补缺失值的原理

最后&＃xff0c;我们讲一下使用随机森林回归填补缺失值的原理。任何回归都是从特征矩阵中学习&＃xff0c;然后求解连续型标签y的过程&＃xff0c;之所以能够实现这个过程&＃xff0c;是因为回归算法认为&＃xff0c;特征矩阵和标签之前存在着某种联系。实际上&＃xff0c;标签和特征是可以相互转换的。例如&＃xff1a;

在一个用“工作时间、绩效、请假时长”预测“工资”的问题中&＃xff0c;我们既可以用“工作时间"、"绩效"、"请假时长”的数据来预测“工资”&＃xff0c;也可以反过来&＃xff0c;用“工作时间”,“绩效”和“工资”来预测“请假时长”。而回归填补缺失值&＃xff0c;正是利用了这种思想。对于一个有n个特征的数据来说&＃xff0c;其中特征T有缺失值&＃xff0c;我们就把特征T当作标签&＃xff0c;其他的n-1个特征和原本的标签组成新的特征矩阵。那对于T来说&＃xff0c;它没有缺失的部分&＃xff0c;就是我们的Y_test&＃xff0c;这部分数据既有标签也有特征&＃xff0c;而它缺失的部分&＃xff0c;只有特征没有标签&＃xff0c;就是我们需要预测的部分。

特征T不缺失的值对应的其他n-1个特征 &＃43; 本来的标签&＃xff1a;X_train
特征T不缺失的值&＃xff1a;Y_train
特征T缺失的值对应的其他n-1个特征 &＃43; 本来的标签&＃xff1a;X_test
特征T缺失的值&＃xff1a;未知&＃xff0c;我们需要预测的Y_test

这种做法&＃xff0c;对于某一个特征大量缺失&＃xff0c;其他特征却很完整的情况&＃xff0c;非常适用。

注~

在本文随机森林回归那个例子中&＃xff0c;有缺失值的那列&＃xff0c;就相当于原理里说的标签&＃xff0c;而其他不含缺失值的列&＃xff0c;相当于特征矩阵~

以上便是<如何填补Pandas中的缺失值(机器学习入门篇)>的内容&＃xff0c;感谢大家的细心阅读&＃xff0c;同时欢迎感兴趣的小伙伴一起讨论、学习&＃xff0c;想要了解更多内容的可以看我的其他文章&＃xff0c;同时可以持续关注我的动态~

推荐阅读

web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
python
如何撰写数据分析师（包括转行者）的面试简历？

CDA数据分析师团队出品，作者：徐杨老师，编辑：Mika。本文将帮助您了解如何撰写一份高质量的数据分析师简历，特别是对于转行者。 ... [详细]

蜡笔小新 2024-11-12 18:20:52
io
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
int
非线性门控感知器算法的实现与应用分析

非线性门控感知器算法的实现与应用分析 ... [详细]

蜡笔小新 2024-11-11 12:19:17
io
机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析

机器学习中的标准化缩放、最小-最大缩放及鲁棒缩放技术解析 ... [详细]

蜡笔小新 2024-11-05 15:46:18
select
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
io
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
io
第二十五天接口、多态

1.java是面向对象的语言。设计模式：接口接口类是从java里衍生出来的，不是python原生支持的主要用于继承里多继承抽象类是python原生支持的主要用于继承里的单继承但是接 ... [详细]

蜡笔小新 2024-11-12 06:43:20
python
深入解析监督学习的核心概念与应用

本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支，通过利用带有标签的训练数据，能够有效构建预测模型。文章详细解析了监督学习的关键概念，如特征选择、模型评估和过拟合问题，并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]

蜡笔小新 2024-11-09 21:07:22
io
如何使用mysql_nd：Python连接MySQL数据库的优雅指南

无论是进行机器学习、Web开发还是爬虫项目，数据库操作都是必不可少的一环。本文将详细介绍如何使用Python通过 `mysql_nd` 库与 MySQL 数据库进行高效连接和数据交互。内容涵盖以下几个方面： ... [详细]

蜡笔小新 2024-11-06 15:19:37
io
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
io
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
io
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
io
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
web
开发者调查揭示：Python 备受青睐，PHP 成为最不受欢迎语言

Hired网站最新发布的开发者调查显示，Python 语言继续受到开发者的广泛欢迎，而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据，深入分析了当前编程语言的使用趋势和开发者偏好。此外，报告还探讨了其他热门语言如 JavaScript 和 Java 的表现，并提供了对技术招聘市场的洞见。 ... [详细]

蜡笔小新 2024-11-03 14:37:24

欢颜是胖妞妞08

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章