热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python标准差_Python数据清洗学习笔记(八):数据的预处理

有时候我们需要对一些特定的数值进行处理,比如重复值,异常值或缺失值等等。今天我们从以下四个方面入手:1.重复值处理2.异常值处理3.缺失值

有时候我们需要对一些特定的数值进行处理,比如重复值,异常值或缺失值等等。今天我们从以下四个方面入手:

1.重复值处理

2.异常值处理

3.缺失值处理

4.数据离散化

4256d1a106720c82ec87235ee8e4f35b.png
一:重复值处理

我们先可判断是否存在重复值,然后在进行处理:删除或者保留

1.df.duplicated方法

2.df.drop_duplicates方法

3233e08409527db96c936a1f5f67c867.png
二:缺失值处理

对于缺失值,我们可以对之删除,或者用一些特殊值替代。

1.df.isnull方法

2.df.dropna方法

3.df.fillna方法

68cbcf8fa82e0f28dc0166a68ce52f2f.png
三:异常值处理

异常值:一般指那些偏离正常范围的值

判断的话,一般采用两种方法:

1.分位差法

2.标准差法

正常范围没有严格的定义,可以自行设置:如

【均值-2*标准差,均值+2*标准差】

67247d2d6e6825ddf654ff8ef61ed77f.png
四:数据离散化

数据离散化就是分箱

1.等频分箱

2.等宽分箱

e3513532c5fbc47d682bed2f935020df.png
b9dc6eb3c0cf47179714b596a630741e.png

Python数据清洗学习笔记(七):数据统计

Python数据清洗学习笔记(六):数据转换

Python数据清洗学习笔记(五):数据表的处理

Python数据清洗学习笔记(四):文件读写

Python数据清洗学习笔记(三):Pandas常用数据结构

Python数据清洗学习笔记(二):numpy的常用数据清洗函数

Python数据清洗学习笔记(一):numpy常用数据结构



推荐阅读
author-avatar
SufiaLi
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有