热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

怎么对数据进行预处理,数据预处理的主要任务

数据导入导入数据并合并为df_features方便对训练集和测试集一起做处理。pandas有一个get_dummies函数可


数据预处理一般操作数据读取数据分析数据大小确认数据类型、缺失值、缺失值占比确认数据相关性-数据处理数据类型转换显示pd.to_numeric函数散点图观察缺失值处理数据删除缺失值填写:文本数据


读取数据


通过导入数据并将其集成到df_features中,可以一起处理训练集和测试集。


#读取excel train=PD.read _ excel (r ' file path ' ) test=PD.read_excel读取csvtrain=PD.read_ )。 合并数据df_features=train.append(test )数据分析显示数据大小print ('培训集: ' str ' train.shape ) \ n测试集: (' str ) test.shape ) )数据类型显示缺少值的百分比#列号为中文col=[ ] df _ features.columns=col # view bili=list ((() ) . format(x ) ).values ) for index,values,isnull,biinzip (list (df _ features.dtypes.index ),list ) df _ df list(df_features.isnull ).sum )、bili ) :12 ) ({ :12 } { 336012 } { 336012 } { 336012 } { 336012 } )、)


查看数据依赖关系-#相关函数data.corr ()打印相关矩阵的第一列) #for index,valuesinzip ) df_features.corr ).index, df_features.corr ().values[0] ) : # print ({ :15 } ).format ) index, values ) (#相关性importmatplotlib.pyplotaspltimportseabornassnsfrompylabimportmpl.rcparams [ ' font.sans-serif ' ] )=差速器=false#解析保存映像指定为负的PLT.figure (fig size=6520,20 ) (ax=SNS.heatmap ) teatmap ) square=True,line color='。 center=0) ax.tick_Params(labelsize=10 ) plt.show )数据处理数据类型对不可转换的数据执行nandf _ features [ ' columns _ name ' ]


散点图由importmatplotlib.pyplotasplt.scatter (df _ features [ ' columns _ name ' ].index,df _ features [ ' columns _ ne ]


data frame.drop _ duplicates (subset=none,keep='first ',inplace=False ) ) Python Pandas是数据drop_duplicates的详细解


删除一列:


df_features.drop(columns_name ),axis=1,inplace=True )缺少值的填充:常规填充方法:


填充-1: df _ features [ ' columns _ name ' ].fill na [-1,inplace=True填充乘数,平均数, 中值等: df _ features [ ' columns _ ] in place=true (#填充平均数df _ features [ ' columns _ name ' ).fill na (df _ features [ inplace=true(#中值df _ features [ ' columns _ name ' ].fill na (df _ features [ ' columns _ name ' ].mode ) )0)


KNNImputer :可靠的缺失值插值方法


我建议你看看这个。 填补缺失值的几种方法


文本数据处理http://www.Sina.com/: froms klearn.preprocessingimportlabelencoderforfeatin [ ' columns _ name ' ] 3360 LBL=lame ) df _ features [ feat ]=LBL.transform (df _ features [ feat ] ) http://www.Sina.)


用“虚拟变量矩阵”(dummy matrix )替换分类变量。 如果DataFrame列包含k个不同的值,则可以派生k列矩阵或DataFrame。 值都是0和1。 pandas具有实现此功能的get_dummies函数。


pandas.get_dummies(data,prefix=None,prefix _ sep=’_’,dummy_na=False,columns=None,sparse=false 99 ) ) get_dummies(data,)如果不指定新列的列名,则dummies1=PD.get (列名print(--------df-------- ) )打印) df ) data的原始标记对print(df_dummies1) #prefix参数是prefix='key ' ) print,其可以将前缀df_dummies2=PD.get_dummies ) df加到伪变量的名称prefix='key ' )----df_dummies2-----默认情况下,所有分类变量都是one_hot处理df_dummies3=PD.get_dummies(df ) 一个列参数df_dummies4=PD.get_dummies(df,prefix=['class ', “like”)打印)“”-----PD.get )是必需的“like”)----df_dummies4-----“”)打印(df _ dummies ) ' sorce']----df_dummies5----' ' )打印(df _ dummies5)原文链接: Python对数据one-hot代码


LabelEncoder编码:重新审视: AI基础:特征工程-文本特征处理


最后,建议大家看看桨的数据准备和特征工程的故事。


推荐阅读
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 使用多项式拟合分析淘宝双11销售趋势
    根据天猫官方数据,2019年双11成交额达到2684亿元,再次刷新历史记录。本文通过多项式拟合方法,分析并预测未来几年的销售趋势。 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • Python 序列图分割与可视化编程入门教程
    本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例,详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表,帮助非编程背景的用户也能轻松上手。 ... [详细]
  • Python多线程编程技巧与实战应用详解 ... [详细]
  • 每年,意甲、德甲、英超和西甲等各大足球联赛的赛程表都是球迷们关注的焦点。本文通过 Python 编程实现了一种生成赛程表的方法,该方法基于蛇形环算法。具体而言,将所有球队排列成两列的环形结构,左侧球队对阵右侧球队,首支队伍固定不动,其余队伍按顺时针方向循环移动,从而确保每场比赛不重复。此算法不仅高效,而且易于实现,为赛程安排提供了可靠的解决方案。 ... [详细]
  • 本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法,本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载:链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ,提取码:p57s。 ... [详细]
  • 深入解析Python文本数据处理的技巧与方法
    学习Python时,它总能让人深刻体会到这款语言的魅力。今天小编为大家带来一个有趣的项目,用Python处理文本数据,一起来看看今天的问题吧 ... [详细]
  • 这篇文章主要讲解了“怎么用Python写一个电信客户流失预测模型”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入, ... [详细]
  • 集合set集合是可变的容器集合内的数据对象都是唯一的(不能重复多次的)集合是无序的存储结构,集合中的数据没有先后关系集合内的元素必须是不可 ... [详细]
  • 注意力汇聚:NadarayaWatson 核回归
    Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看, ... [详细]
  • 开发笔记:共享单车数据分析
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了共享单车数据分析相关的知识,希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]
  • seaborn箱线图_Seaborn线图的数据可视化
    seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]
  • 循环发电厂电能输出预测
    前言本次项目是就某联合循环发电厂的数据,运用线性回归模型进行预测电能输出,若文中出现错误的地方,还望指正,谢谢!目录1.数据来源及背景2.数据探索分析3.相关分析4.回 ... [详细]
author-avatar
段筱筱雨_422
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有