作者:风云再起2012668 | 来源:互联网 | 2023-09-25 14:30
数据分析总流程
数据处理流程
数据清洗流程
处理缺失值
方法
- 方法一:用一个样本统计量的值代替缺失值,通常用样本平均值和中位数。
- 方法二:用一个统计模型计算的值代替缺失值,通常用回归模型、判别模型等。
- 方法三:将有缺失值的记录删除。
这里仅展示方法一的Python实现。
准备数据
导入以下数据:
姓名 |
月收入 |
---|
小明 |
3000 |
小红 |
5000 |
小华 |
8000 |
小新 |
3500 |
小赵 |
NaN |
小兰 |
5500 |
代码如下:
df_incomp=pd.DataFrame(columns=['姓名','月收入'])
df_incomp['姓名']=['小明','小红','小华','小新','小赵','小兰']
df_incomp['月收入']=[3000,5000,8000,3500,np.nan,5500]
用样本平均值代替缺失值
df_incomp['月收入'].fillna(df_incomp['月收入'].mean(),inplace=True)
结果如下:
用样本中位数代替缺失值
df_incomp['月收入'].fillna(df_incomp['月收入'].median(),inplace=True)
结果如下: