目录
一.数据分析&清洗步骤
二.Python-数据清洗-易混点
三.Numpy Pandas 思维导图
一.数据分析&清洗步骤
二.Python-数据清洗-易混点
1--字典:旧列名和新列名对应关系
colNameDict = {'购药时间':'销售时间'}'''
inplace=False,数据框本身不会变,而会创建一个改动后新的数据框,
默认的inplace是False
inplace=True,数据框本身会改动
'''
salesDf.rename(columns = colNameDict,inplace=True)
2--python缺失值有3种:
1)Python内置的None值
2)在pandas中,将缺失值表示为NA,表示不可用not available。
3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。
那None和NaN有什么区别呢:
None是Python的一种数据类型,NaN是浮点类型 两个都用作空值
3--字符串分割
testList='2018-06-03 星期五'.split(' ')
4--数据类型转换:字符串转换为日期
#errors='coerce' 如果原始数据不符合日期的格式,转换后的值为空值NaT
#format 是你原始数据中日期的格式
salesDf.loc[:,'销售时间']=pd.to_datetime(salesDf.loc[:,'销售时间'],format='%Y-%m-%d', errors='coerce')
5--计算月份数:时间范围
第1步:按销售时间升序排序
kpi1_Df=kpi1_Df.sort_values(by='销售时间',ascending=True)
6--重命名行的索引(index)
kpi1_Df=kpi1_Df.reset_index(drop=True)
7-- 探索缺失值占比
# 第一种方式
data.isnull().sum()/data.shape[0]#得到缺失值的比例
# 第二种方式
data.isnull().mean()#上一行代码的另一种形式书写
三.Numpy Pandas 思维导图