怎么对数据进行预处理,数据预处理的主要任务

作者：段筱筱雨_422 | 来源：互联网 | 2023-05-31 12:43

数据导入导入数据并合并为df_features方便对训练集和测试集一起做处理。pandas有一个get_dummies函数可

数据预处理一般操作数据读取数据分析数据大小确认数据类型、缺失值、缺失值占比确认数据相关性-数据处理数据类型转换显示pd.to_numeric函数散点图观察缺失值处理数据删除缺失值填写：文本数据

读取数据

通过导入数据并将其集成到df_features中，可以一起处理训练集和测试集。

#读取excel train=PD.read _ excel (r ' file path ' ) test=PD.read_excel读取csvtrain=PD.read_ )。合并数据df_features=train.append(test )数据分析显示数据大小print ('培训集： ' str ' train.shape ) \ n测试集： (' str ) test.shape ) )数据类型显示缺少值的百分比#列号为中文col=[ ] df _ features.columns=col # view bili=list ((() ) . format(x ) ).values ) for index，values，isnull，biinzip (list (df _ features.dtypes.index )，list ) df _ df list(df_features.isnull ).sum )、bili ) :12 ) ({ :12 } { 336012 } { 336012 } { 336012 } { 336012 } )、)

查看数据依赖关系-#相关函数data.corr ()打印相关矩阵的第一列) #for index，valuesinzip ) df_features.corr ).index， df_features.corr ().values[0] ) : # print ({ :15 } ).format ) index， values ) (#相关性importmatplotlib.pyplotaspltimportseabornassnsfrompylabimportmpl.rcparams [ ' font.sans-serif ' ] )=差速器=false#解析保存映像指定为负的PLT.figure (fig size=6520，20 ) (ax=SNS.heatmap ) teatmap ) square=True，line color='。 center=0) ax.tick_Params(labelsize=10 ) plt.show )数据处理数据类型对不可转换的数据执行nandf _ features [ ' columns _ name ' ]

散点图由importmatplotlib.pyplotasplt.scatter (df _ features [ ' columns _ name ' ].index，df _ features [ ' columns _ ne ]

data frame.drop _ duplicates (subset=none，keep='first '，inplace=False ) ) Python Pandas是数据drop_duplicates的详细解

删除一列：

df_features.drop(columns_name )，axis=1，inplace=True )缺少值的填充：常规填充方法：

填充-1: df _ features [ ' columns _ name ' ].fill na [-1，inplace=True填充乘数，平均数，中值等： df _ features [ ' columns _ ] in place=true (#填充平均数df _ features [ ' columns _ name ' ).fill na (df _ features [ inplace=true(#中值df _ features [ ' columns _ name ' ].fill na (df _ features [ ' columns _ name ' ].mode ) )0)

KNNImputer :可靠的缺失值插值方法

我建议你看看这个。填补缺失值的几种方法

文本数据处理http://www.Sina.com/: froms klearn.preprocessingimportlabelencoderforfeatin [ ' columns _ name ' ] 3360 LBL=lame ) df _ features [ feat ]=LBL.transform (df _ features [ feat ] ) http://www.Sina.)

用“虚拟变量矩阵”(dummy matrix )替换分类变量。如果DataFrame列包含k个不同的值，则可以派生k列矩阵或DataFrame。值都是0和1。 pandas具有实现此功能的get_dummies函数。

pandas.get_dummies(data，prefix=None，prefix _ sep=’_’，dummy_na=False，columns=None，sparse=false 99 ) ) get_dummies(data，)如果不指定新列的列名，则dummies1=PD.get (列名print(--------df-------- ) )打印) df ) data的原始标记对print(df_dummies1) #prefix参数是prefix='key ' ) print，其可以将前缀df_dummies2=PD.get_dummies ) df加到伪变量的名称prefix='key ' )----df_dummies2-----默认情况下，所有分类变量都是one_hot处理df_dummies3=PD.get_dummies(df ) 一个列参数df_dummies4=PD.get_dummies(df，prefix=['class '， “like”)打印)“”-----PD.get )是必需的“like”)----df_dummies4-----“”)打印(df _ dummies ) ' sorce']----df_dummies5----' ' )打印(df _ dummies5)原文链接： Python对数据one-hot代码

LabelEncoder编码:重新审视： AI基础：特征工程-文本特征处理

最后，建议大家看看桨的数据准备和特征工程的故事。

推荐阅读

int
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
int
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
int
使用多项式拟合分析淘宝双11销售趋势

根据天猫官方数据，2019年双11成交额达到2684亿元，再次刷新历史记录。本文通过多项式拟合方法，分析并预测未来几年的销售趋势。 ... [详细]

蜡笔小新 2024-11-12 16:57:26
int
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
utf-8
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
int
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
int
Python编程实现足球联赛赛程安排的策略与简易示例分析

每年，意甲、德甲、英超和西甲等各大足球联赛的赛程表都是球迷们关注的焦点。本文通过 Python 编程实现了一种生成赛程表的方法，该方法基于蛇形环算法。具体而言，将所有球队排列成两列的环形结构，左侧球队对阵右侧球队，首支队伍固定不动，其余队伍按顺时针方向循环移动，从而确保每场比赛不重复。此算法不仅高效，而且易于实现，为赛程安排提供了可靠的解决方案。 ... [详细]

蜡笔小新 2024-11-07 17:41:40
search
利用Python实现高效语音识别技术

本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法，本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载：链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ，提取码：p57s。 ... [详细]

蜡笔小新 2024-11-07 13:05:53
ip
深入解析Python文本数据处理的技巧与方法

学习Python时，它总能让人深刻体会到这款语言的魅力。今天小编为大家带来一个有趣的项目，用Python处理文本数据，一起来看看今天的问题吧 ... [详细]

蜡笔小新 2023-10-14 08:20:18
char
怎么用Python写一个电信客户流失预测模型

这篇文章主要讲解了“怎么用Python写一个电信客户流失预测模型”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入， ... [详细]

蜡笔小新 2023-10-13 09:09:43
byte
Python 集合(set) 介绍

集合set集合是可变的容器集合内的数据对象都是唯一的（不能重复多次的）集合是无序的存储结构，集合中的数据没有先后关系集合内的元素必须是不可 ... [详细]

蜡笔小新 2023-10-11 12:32:45
int
注意力汇聚：NadarayaWatson 核回归

Nadaraya-Watson核回归是具有注意力机制的机器学习范例。Nadaraya-Watson核回归的注意力汇聚是对训练数据中输出的加权平均。从注意力的角度来看， ... [详细]

蜡笔小新 2023-10-10 12:37:01
int
开发笔记:共享单车数据分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了共享单车数据分析相关的知识，希望对你有一定的参考价值。共享单车数据分析和共享单车用户行为分析PPT从数据分 ... [详细]

蜡笔小新 2023-10-10 10:55:15
ip
seaborn箱线图_Seaborn线图的数据可视化

seaborn箱线图Hello,folks!Inthisarticle,wewillbetakingtheSeaborntutorialaheadandunderstandingt ... [详细]

蜡笔小新 2023-10-10 04:04:09
select
循环发电厂电能输出预测

前言本次项目是就某联合循环发电厂的数据，运用线性回归模型进行预测电能输出，若文中出现错误的地方，还望指正，谢谢！目录1.数据来源及背景2.数据探索分析3.相关分析4.回 ... [详细]

蜡笔小新 2023-09-25 15:47:36

段筱筱雨_422

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章