热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PythonPandas数据清洗技巧与关键知识点综述

本文系统梳理了使用PythonPandas进行数据清洗的关键技术和核心知识点。首先,详细介绍了数据分析与清洗的基本流程,包括数据加载、预处理、缺失值处理、异常值检测等步骤。接着,针对Python数据清洗中常见的难点和易混淆点进行了深入解析,并结合实际案例提供了实用解决方案。最后,通过Numpy和Pandas的思维导图,帮助读者更好地理解和掌握相关概念与操作技巧。
784139c9c55dd78bb7a2e1837c29ceb2.png

目录

一.数据分析&清洗步骤

二.Python-数据清洗-易混点

三.Numpy Pandas 思维导图


一.数据分析&清洗步骤

725d267f2e38a3584a67541a97000663.png

二.Python-数据清洗-易混点

1--字典:旧列名和新列名对应关系

colNameDict = {'购药时间':'销售时间'}'''
inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,
默认的inplace是False
inplace=True,数据框本身会改动
'''
salesDf.rename(columns = colNameDict,inplace=True)

2--python缺失值有3种:

1)Python内置的None值

2)在pandas中,将缺失值表示为NA,表示不可用not available。

3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。

NoneNaN有什么区别呢:

None是Python的一种数据类型,NaN是浮点类型 两个都用作空值

3--字符串分割

testList='2018-06-03 星期五'.split(' ')

4--数据类型转换:字符串转换为日期

#errors='coerce' 如果原始数据不符合日期的格式,转换后的值为空值NaT
#format 是你原始数据中日期的格式
salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],format='%Y-%m-%d', errors='coerce')

5--计算月份数:时间范围

第1步:按销售时间升序排序

kpi1_Df=kpi1_Df.sort_values(by='销售时间',ascending=True)

6--重命名行的索引(index)

kpi1_Df=kpi1_Df.reset_index(drop=True)

7-- 探索缺失值占比

# 第一种方式
data.isnull().sum()/data.shape[0]#得到缺失值的比例
# 第二种方式
data.isnull().mean()#上一行代码的另一种形式书写


三.Numpy Pandas 思维导图

aa4f5b58333cb4ea73357697d264b18d.png
0f5d0c488ba0127a904e8447ae98a47d.png
863c5812f5821582f628d4e8ca9ed897.png



推荐阅读
author-avatar
紫褚1314
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有