热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

怎么对数据进行预处理,数据预处理的主要任务

数据导入导入数据并合并为df_features方便对训练集和测试集一起做处理。pandas有一个get_dummies函数可


数据预处理一般操作数据读取数据分析数据大小确认数据类型、缺失值、缺失值占比确认数据相关性-数据处理数据类型转换显示pd.to_numeric函数散点图观察缺失值处理数据删除缺失值填写:文本数据


读取数据


通过导入数据并将其集成到df_features中,可以一起处理训练集和测试集。


#读取excel train=PD.read _ excel (r ' file path ' ) test=PD.read_excel读取csvtrain=PD.read_ )。 合并数据df_features=train.append(test )数据分析显示数据大小print ('培训集: ' str ' train.shape ) \ n测试集: (' str ) test.shape ) )数据类型显示缺少值的百分比#列号为中文col=[ ] df _ features.columns=col # view bili=list ((() ) . format(x ) ).values ) for index,values,isnull,biinzip (list (df _ features.dtypes.index ),list ) df _ df list(df_features.isnull ).sum )、bili ) :12 ) ({ :12 } { 336012 } { 336012 } { 336012 } { 336012 } )、)


查看数据依赖关系-#相关函数data.corr ()打印相关矩阵的第一列) #for index,valuesinzip ) df_features.corr ).index, df_features.corr ().values[0] ) : # print ({ :15 } ).format ) index, values ) (#相关性importmatplotlib.pyplotaspltimportseabornassnsfrompylabimportmpl.rcparams [ ' font.sans-serif ' ] )=差速器=false#解析保存映像指定为负的PLT.figure (fig size=6520,20 ) (ax=SNS.heatmap ) teatmap ) square=True,line color='。 center=0) ax.tick_Params(labelsize=10 ) plt.show )数据处理数据类型对不可转换的数据执行nandf _ features [ ' columns _ name ' ]


散点图由importmatplotlib.pyplotasplt.scatter (df _ features [ ' columns _ name ' ].index,df _ features [ ' columns _ ne ]


data frame.drop _ duplicates (subset=none,keep='first ',inplace=False ) ) Python Pandas是数据drop_duplicates的详细解


删除一列:


df_features.drop(columns_name ),axis=1,inplace=True )缺少值的填充:常规填充方法:


填充-1: df _ features [ ' columns _ name ' ].fill na [-1,inplace=True填充乘数,平均数, 中值等: df _ features [ ' columns _ ] in place=true (#填充平均数df _ features [ ' columns _ name ' ).fill na (df _ features [ inplace=true(#中值df _ features [ ' columns _ name ' ].fill na (df _ features [ ' columns _ name ' ].mode ) )0)


KNNImputer :可靠的缺失值插值方法


我建议你看看这个。 填补缺失值的几种方法


文本数据处理http://www.Sina.com/: froms klearn.preprocessingimportlabelencoderforfeatin [ ' columns _ name ' ] 3360 LBL=lame ) df _ features [ feat ]=LBL.transform (df _ features [ feat ] ) http://www.Sina.)


用“虚拟变量矩阵”(dummy matrix )替换分类变量。 如果DataFrame列包含k个不同的值,则可以派生k列矩阵或DataFrame。 值都是0和1。 pandas具有实现此功能的get_dummies函数。


pandas.get_dummies(data,prefix=None,prefix _ sep=’_’,dummy_na=False,columns=None,sparse=false 99 ) ) get_dummies(data,)如果不指定新列的列名,则dummies1=PD.get (列名print(--------df-------- ) )打印) df ) data的原始标记对print(df_dummies1) #prefix参数是prefix='key ' ) print,其可以将前缀df_dummies2=PD.get_dummies ) df加到伪变量的名称prefix='key ' )----df_dummies2-----默认情况下,所有分类变量都是one_hot处理df_dummies3=PD.get_dummies(df ) 一个列参数df_dummies4=PD.get_dummies(df,prefix=['class ', “like”)打印)“”-----PD.get )是必需的“like”)----df_dummies4-----“”)打印(df _ dummies ) ' sorce']----df_dummies5----' ' )打印(df _ dummies5)原文链接: Python对数据one-hot代码


LabelEncoder编码:重新审视: AI基础:特征工程-文本特征处理


最后,建议大家看看桨的数据准备和特征工程的故事。


推荐阅读
  • 本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算,然后根据这些系数的性质选择适当的ARMA模型进行拟合,并估计模型中的位置参数。接着进行模型的有效性检验,如果不通过则重新选择模型再拟合,如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
  • python3 nmap函数简介及使用方法
    本文介绍了python3 nmap函数的简介及使用方法,python-nmap是一个使用nmap进行端口扫描的python库,它可以生成nmap扫描报告,并帮助系统管理员进行自动化扫描任务和生成报告。同时,它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途,包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息,nmap.py用于调用nmap的功能进行扫描,test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]
  • pythonMatplotlib(二)
    Matplotlib+pandas作图一、对csv文件进行提取ruixi.csv对上述表格进行提取并做图画出图像二、对.xlsx进行提取:rui ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • ASP.NET2.0数据教程之十四:使用FormView的模板
    本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观,与GridView和DetailsView不同,FormView使用模板来呈现,可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]
  • 我们有(据我所知)星型模式SQL数据库中的数据文件。该数据库有5个不同的文件,扩展名为 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
  • 本文介绍了使用Python编写购物程序的实现步骤和代码示例。程序启动后,用户需要输入工资,并打印商品列表。用户可以根据商品编号选择购买商品,程序会检测余额是否充足,如果充足则直接扣款,否则提醒用户。用户可以随时退出程序,在退出时打印已购买商品的数量和余额。附带了完整的代码示例。 ... [详细]
  • 本文介绍了如何使用PHP代码将表格导出为UTF8格式的Excel文件。首先,需要连接到数据库并获取表格的列名。然后,设置文件名和文件指针,并将内容写入文件。最后,设置响应头部,将文件作为附件下载。 ... [详细]
  • EPPlus绘制刻度线的方法及示例代码
    本文介绍了使用EPPlus绘制刻度线的方法,并提供了示例代码。通过ExcelPackage类和List对象,可以实现在Excel中绘制刻度线的功能。具体的方法和示例代码在文章中进行了详细的介绍和演示。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
author-avatar
段筱筱雨_422
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有