热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

特征工程系列:(二)缺失值处理

Pandas判断缺失值df.isnull().sum()#显示每一列的空值个数data.info()#可以直观的查看缺失值注意,有些数据用0代替特征值,这个时候,可以将0用None

Pandas判断缺失值

df.isnull().sum() #显示每一列的空值个数
data.info() #可以直观的查看缺失值

注意,有些数据用0代替特征值,这个时候,可以将0用None 代替,这样,isnull 函数就可以检测出来了,而且fillna 和dropna函数都可以直接工作了。


处理缺失值


直接删除

将存在遗漏信息属性值的对象(元组,记录)删除,从而得到一个完备的信息表。

优点:简单易行,在对象有多个属性缺失值、被删除的含缺失值的对象与初始数据集的数据量相比非常小的情况下有效;

不足:当缺失数据所占比例较大,特别当遗漏数据非随机分布时,这种方法可能导致数据发生偏离,从而引出错误的结论。

如何判断直接删除数据后,对数据造成的影响,可以计算原始数据均值,和删除后,数据的均值的变化图,如果变化很大,那么最好不要直接删除数据

( p_drop.mean() - p.mean() ) / p.mean()

技术分享图片


数据填充

用一定的值去填充空值,从而使信息表完备化。通常基于统计学原理,根据初始数据集中其余对象取值的分布情况来对一个缺失值进行填充。



  1. 人工填充(filling manually)

根据业务知识来进行人工填充。



  1. 统计量填充

若缺失率较低(小于 95%)且重要性较低,则根据数据分布的情况进行填充。

常用填充统计量:

平均值:对于数据符合均匀分布,用该变量的均值填补缺失值。
中位数:对于数据存在倾斜分布的情况,采用中位数填补缺失值。
众数:离散特征可使用众数进行填充缺失值。

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer() #默认均值填充
imp_median = SimpleImputer(strategy="median") #用中位数进行填充
imp_0 = SimpleImputer(strategy="constant" fill_value=0) #用0填充
imp_mode.fit_transform(data)


  1. 模型预测填充

使用待填充字段作为 Label,没有缺失的数据作为训练数据,建立分类/回归模型,对待填充的缺失字段 进行预测并进行填充。

最近距离邻法(KNN)先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的 K 个样本,将这 K 个值加权平均/投票来估计该样本的缺失数据。

回归(Regression)基于完整的数据集,建立回归方程。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关时会导致有偏差的估计,常用线性回归。



  1. 插值法填充包括随机插值,多重插补法,热平台插补,拉格朗日插值,牛顿插值等。



  • 线性插值法

    使用插值法可以计算缺失值的估计值,所谓的插值法就是通过两点(x0,y0),(x1,y1)估计中间点的值,假设 y=f(x)是一条直线,通过已知的两点来计算函数 f(x),然后只要知道 x 就能求出 y,以此方法来估计缺失值。
    interpolate(method = ‘linear‘, axis) 方法将通过 linear 插值使用沿着给定 axis 的值替换 NaN 值, 这个差值也就是前后或者上下的中间值



df_titanic[‘fare‘].interpolate(method = ‘linear‘, axis = 0)
#同时,也可以用行值插入
df_titanic[‘fare‘].interpolate(method = ‘linear‘, axis = 1)


  • 多重插补(Multiple Imputation)

    多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

    多重插补方法分为三个步骤:

    Step1:为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合;

    Step2:每个插补数据集合都用针对完整数据集的统计方法进行统计分析;

    Step3:对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。



  • 哑变量填充

    若变量是离散型,且不同值较少,可转换成哑变量,例如性别 SEX 变量,存在 male,fameal,NA 三个不同的值,可将该列转换成 IS_SEX_MALE、IS_SEX_FEMALE、IS_SEX_NA。若某个变量存在十几个不同的值,可根据每个值的频数,将频数较小的值归为一类’other’,降低维度。此做法可最大化保留变量的信息。




sklearn中的缺失值填充

sklearn.preprocessing.Imputer(missing_values=’NaN’,
strategy=’mean’, fill_value, axis=0, verbose=0, copy=True)

主要参数说明:

missing_values:缺失值,可以为整数或 NaN(缺失值 numpy.nan 用字符串‘NaN’表示),
默认为 NaN

strategy:替换策略,字符串,默认用均值‘mean’替换
若为mean时,用特征列的均值替换 ② 若为median时,用特征列的中位数替换 ③
若为most_frequent时,用特征列的众数替换

fill_value: 当strategy为‘constant’的时候可以使用

axis:指定轴数,默认 axis=0 代表列,axis=1 代表行

copy:设置为 True 代表不在原数据集上修改,设置为 False 时,就地修改,存在如下情况时,
即使设置为 False 时,也不会就地修改 ① X不是浮点值数组 ② X是稀疏且missing_values=0 ③
axis=0且X为CRS矩阵 ④ axis=1且X为CSC矩阵 statistics_属性:axis 设置为 0 时,
每个特征的填充值数组,axis=1 时,报没有该属性错误

当然也可以使用pandas自带的方法fillna填充,其实有时候要比sklearn中的填充方法更加方便


参考

《特征工程入门与实践》
《精通特征工程》
《菜菜sklearn》


推荐阅读
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 本文内容为asp.net微信公众平台开发的目录汇总,包括数据库设计、多层架构框架搭建和入口实现、微信消息封装及反射赋值、关注事件、用户记录、回复文本消息、图文消息、服务搭建(接入)、自定义菜单等。同时提供了示例代码和相关的后台管理功能。内容涵盖了多个方面,适合综合运用。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了指针的概念以及在函数调用时使用指针作为参数的情况。指针存放的是变量的地址,通过指针可以修改指针所指的变量的值。然而,如果想要修改指针的指向,就需要使用指针的引用。文章还通过一个简单的示例代码解释了指针的引用的使用方法,并思考了在修改指针的指向后,取指针的输出结果。 ... [详细]
  • 在project.properties添加#Projecttarget.targetandroid-19android.library.reference.1..Sliding ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
author-avatar
为佐殿回来而读书的天使
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有