热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

dataframe字符串型空白值处理;随机、分层、过采样

pandas字符串型空白值处理importnumpyasnpall_datass.replace(to_replacer^\s*$,valuenp.nan,regexTrue,i

pandas字符串型空白值处理

在这里插入图片描述

import numpy as np
all_datass.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)
all_datass =all_datass.dropna()

在这里插入图片描述

pandas随机、分层、过采样

随机:pandas sample

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]

分层:可以是几个特定的类别再随机sample后组合

df[df["s"]=="a"].sample()
df[df["s"]=="b"].sample()
df[df["s"]=="c"].sample()

过采样:(上,下采样)

from imblearn.over_sampling import SMOTE
X_resampled_smote, y_resampled_smote = SMOTE(sampling_strategy=0.05).fit_sample(X, y)
sorted(Counter(y_resampled_smote).items())


推荐阅读
author-avatar
lk神密勇士
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有