有时候我们需要对一些特定的数值进行处理,比如重复值,异常值或缺失值等等。今天我们从以下四个方面入手:
1.重复值处理
2.异常值处理
3.缺失值处理
4.数据离散化
一:重复值处理我们先可判断是否存在重复值,然后在进行处理:删除或者保留
1.df.duplicated方法
2.df.drop_duplicates方法
二:缺失值处理
对于缺失值,我们可以对之删除,或者用一些特殊值替代。
1.df.isnull方法
2.df.dropna方法
3.df.fillna方法
三:异常值处理
异常值:一般指那些偏离正常范围的值
判断的话,一般采用两种方法:
1.分位差法
2.标准差法
正常范围没有严格的定义,可以自行设置:如
【均值-2*标准差,均值+2*标准差】
四:数据离散化
数据离散化就是分箱
1.等频分箱
2.等宽分箱
Python数据清洗学习笔记(七):数据统计
Python数据清洗学习笔记(六):数据转换
Python数据清洗学习笔记(五):数据表的处理
Python数据清洗学习笔记(四):文件读写
Python数据清洗学习笔记(三):Pandas常用数据结构
Python数据清洗学习笔记(二):numpy的常用数据清洗函数
Python数据清洗学习笔记(一):numpy常用数据结构