当前位置: 开发笔记 > 编程语言 > 正文

20210502_数据预处理(第二天)

作者：瓜瓜哥哥 | 来源：互联网 | 2023-07-25 12:00

二、数据预处理(第二天)–realpython小建议在最后文章目录二、数据预处理(第二天)来源1数据预处理及特征工程1.1缺失数据统计与处理1.1任务一：缺失值统计

二、数据预处理(第二天)

在这里插入图片描述

–real python

小建议在最后

文章目录

二、数据预处理(第二天)
- 来源
- 1 数据预处理及特征工程
- - 1.1 缺失数据统计与处理
  - - 1.1 任务一&＃xff1a;缺失值统计
    - 1.2 任务二&＃xff1a;对缺失值进行处理
  - 1.2 重复值统计及处理
  - - 1.2.1 重复值统计
    - 1.2.2 重复值处理
  - 1.3 特征工程
  - - 1.3.1 数据分桶
    - 1.3.2 标签编码和独热编码
- 2 数据重构
- - 2.1 数据合并
  - - 2.1.1 横向合并
    - 2.1.2 纵向合并
  - 2.2 数据分组
- 小建议

来源

文章内容来源于Datewhale的hands-on-data-analysis项目
地址:https://github.com/datawhalechina/hands-on-data-analysis
作者:金娟娟&＃xff0c;陈安东&＃xff0c;杨佳达&＃xff0c;老表&＃xff0c;李玲&＃xff0c;张文涛&＃xff0c;高立业

笔记目的: 借助五一复习一下pandas

1 数据预处理及特征工程

1.1 缺失数据统计与处理

1.1 任务一&＃xff1a;缺失值统计

(1) 请查看每个特征缺失值个数

可用 isna 或 isnull &＃xff08;两个函数没有区别&＃xff09;来查看每个单元格是否缺失, mean查看比例, sum查看数量

df.isnull().sum()

在这里插入图片描述

df.isnull().mean()

在这里插入图片描述

(2) 请查看Age&＃xff0c; Cabin&＃xff0c; Embarked列的数据

#写入代码 df[[&＃39;Age&＃39;,&＃39;Cabin&＃39;,&＃39;Embarked&＃39;]].head(3)

在这里插入图片描述

1.2 任务二&＃xff1a;对缺失值进行处理

处理方式: 删除dropna和填充fillall
deopha主要参数为轴方向 axis &＃xff08;默认为0&＃xff0c;即删除行&＃xff09;、删除方式 how 、删除的非缺失值个数阈值 thresh &＃xff08; 非缺失值没有达到这个数量的相应维度会被删除&＃xff09;、备选的删除子集 subset &＃xff0c;其中 how 主要有 any 和 all 两种参数可以选择。
fillna 中有三个参数是常用的&＃xff1a; value, method, limit 。其中&＃xff0c; value 为填充值&＃xff0c;可以是标量&＃xff0c;也可以是索引到元素的字典映射&＃xff1b; method 为填充方法&＃xff0c;有用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型&＃xff0c; limit 参数表示连续缺失值的最大填充次数。

df1 &＃61; df.dropna().head() df1.reset_index(inplace&＃61;True) df1

在这里插入图片描述

#0填充 df.fillna(0).head()

在这里插入图片描述

1.2 重复值统计及处理

1.2.1 重复值统计

duplicated()显示各行是否有重复行&＃xff0c;没有重复行显示为FALSE&＃xff0c;有重复行显示为TRUE&＃xff1b;

df[df.duplicated()]

1.2.2 重复值处理

drop_duplicates方法用于返回一个移除了重复行的DataFrame

df.drop_duplicates().head()

在这里插入图片描述 —

1.3 特征工程

1.3.1 数据分桶

数据分桶是一种数据预处理技术&＃xff0c;用于减少次要观察误差的影响

为什么要进行数据分桶&＃xff1f;

离散后稀疏向量内积乘法运算速度更快&＃xff0c;计算结果也方便存储&＃xff0c;容易扩展&＃xff1b;
离散后的特征对异常值更具鲁棒性&＃xff0c;如 age>30 为 1 否则为 0&＃xff0c;对于年龄为 200 的也不会对模型造成很大的干扰&＃xff1b;
LR 属于广义线性模型&＃xff0c;表达能力有限&＃xff0c;经过离散化后&＃xff0c;每个变量有单独的权重&＃xff0c;这相当于引入了非线性&＃xff0c;能够提升模型的表达能力&＃xff0c;加大拟合&＃xff1b;
离散后特征可以进行特征交叉&＃xff0c;提升表达能力&＃xff0c;由 M&＃43;N 个变量编程 M*N 个变量&＃xff0c;进一步引入非线形&＃xff0c;提升了表达能力&＃xff1b;
特征离散后模型更稳定&＃xff0c;如用户年龄区间&＃xff0c;不会因为用户年龄长了一岁就变化&＃xff1b;
可以将缺失作为独立的一类带入模型&＃xff1b;
将所有的变量变换到相似的尺度上。

分桶方法分为无监督分桶和有监督分桶。
&＃xff08;1&＃xff09;常用的无监督分桶方法有等频分桶、等距分桶和聚类分桶。
&＃xff08;2&＃xff09; 有监督分桶主要有best-ks分桶和卡方分桶。
pd.cut( x, bins, right&＃61;True, labels&＃61;None, retbins&＃61;False, precision&＃61;3, include_lowest&＃61;False, duplicates&＃61;&＃39;raise&＃39;, )

#将连续变量Age平均分箱成5个年龄段&＃xff0c;并分别用类别变量12345表示 df[&＃39;AgeBand&＃39;] &＃61; pd.cut(df[&＃39;Age&＃39;], 5,labels &＃61; [&＃39;1&＃39;,&＃39;2&＃39;,&＃39;3&＃39;,&＃39;4&＃39;,&＃39;5&＃39;]) df.head()

在这里插入图片描述

#将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段&＃xff0c;并分别用类别变量12345表示 df[&＃39;AgeBand&＃39;] &＃61; pd.cut(df[&＃39;Age&＃39;],[0,5,15,30,50,80],labels &＃61; [&＃39;1&＃39;,&＃39;2&＃39;,&＃39;3&＃39;,&＃39;4&＃39;,&＃39;5&＃39;]) df.head(3)

在这里插入图片描述

#将连续变量Age按10% 30% 50 70% 90%五个年龄段&＃xff0c;并用分类变量12345表示 df &＃61; pd.read_csv(&＃39;train.csv&＃39;) df[&＃39;AgeBand&＃39;] &＃61; pd.qcut(df[&＃39;Age&＃39;],[0,0.1,0.3,0.5,0.7,0.9],labels &＃61; [&＃39;1&＃39;,&＃39;2&＃39;,&＃39;3&＃39;,&＃39;4&＃39;,&＃39;5&＃39;]) df.head()

在这里插入图片描述

1.3.2 标签编码和独热编码

标签编码将文本变量Sex&＃xff0c; Cabin &＃xff0c;Embarked用数值变量12345表示

df &＃61; pd.read_csv(&＃39;test_clear.csv&＃39;) from sklearn.preprocessing import LabelEncoder for feat in [&＃39;Cabin&＃39;, &＃39;Ticket&＃39;,&＃39;Sex&＃39;]:lbl &＃61; LabelEncoder() label_dict &＃61; dict(zip(df[feat].unique(), range(df[feat].nunique())))df[feat &＃43; "_labelEncode"] &＃61; df[feat].map(label_dict)df[feat &＃43; "_labelEncode"] &＃61; lbl.fit_transform(df[feat].astype(str))df.head()

在这里插入图片描述

其他方法:

#方法一: replace df[&＃39;Sex_num&＃39;] &＃61; df[&＃39;Sex&＃39;].replace([&＃39;male&＃39;,&＃39;female&＃39;],[1,2]) df.head()

#方法二: map df[&＃39;Sex_num&＃39;] &＃61; df[&＃39;Sex&＃39;].map({&＃39;male&＃39;: 1, &＃39;female&＃39;: 2}) df.head()

独热编码将文本变量Sex&＃xff0c; Cabin&＃xff0c; Embarked用one-hot编码表示

for feat in ["Age", "Embarked"]: # x &＃61; pd.get_dummies(df["Age"] // 6) # x &＃61; pd.get_dummies(pd.cut(df[&＃39;Age&＃39;],5))x &＃61; pd.get_dummies(df[feat], prefix&＃61;feat)df &＃61; pd.concat([df, x], axis&＃61;1)#df[feat] &＃61; pd.get_dummies(df[feat], prefix&＃61;feat)df.head()

在这里插入图片描述

2 数据重构

2.1 数据合并

已知有 text-left-up.csv, text-right-up.csv, text-left-down, text-right-down四张表
concat 中&＃xff0c;最常用的有三个参数&＃xff0c;它们是 axis, join, keys &＃xff0c;分别表示拼接方向&＃xff0c;连接形式&＃xff0c;以及在新表中指示来自于哪一张旧表的名字.
join 函数除了必须的 on 和 how 之外&＃xff0c;可以对重复的列指定左右后缀 lsuffix 和 rsuffix 。其中&＃xff0c;on 参数指索引名&＃xff0c;单层索引时省略参数表示按照当前索引连接。
merge主要就是on和how ; left_on 左侧DataFarme中用作连接键的列
right_on 右侧DataFarme中用作连接键的列

2.1.1 横向合并

concat利用 axis&＃61;1

result_up &＃61; pd.concat([text_left_up,text_right_up],axis&＃61;1) result_down &＃61; pd.concat([text_left_down,text_right_down],axis&＃61;1)

join

resul_up &＃61; text_left_up.join(text_right_up) result_down &＃61; text_left_down.join(text_right_down)

merge

result_up &＃61; pd.merge(text_left_up,text_right_up,left_index&＃61;True,right_index&＃61;True) result_down &＃61; pd.merge(text_left_down,text_right_down,left_index&＃61;True,right_index&＃61;True)

2.1.2 纵向合并

concat

result &＃61; pd.concat([result_up,result_down])

append

result &＃61; result_up.append(result_down)

2.2 数据分组

df.groupby(分组依据)[数据来源].使用操作
1.计算泰坦尼克号男性与女性的平均票价

text &＃61; pd.read_csv(&＃39;result.csv&＃39;) text.head() text.groupby(&＃39;Sex&＃39;)[&＃39;Fare&＃39;].mean()

在这里插入图片描述

1. 统计泰坦尼克号中男女的存活人数

text.groupby(&＃39;Sex&＃39;)[&＃39;Survived&＃39;].sum()

3.计算客舱不同等级的存活人数

text.groupby(&＃39;Pclass&＃39;)[&＃39;Survived&＃39;].sum()

agg()函数复现2和3

text.groupby([&＃39;Sex&＃39;,&＃39;Pclass&＃39;])[&＃39;Survived&＃39;].agg({&＃39;Sex&＃39;: [(&＃39;sum_sex&＃39;,&＃39;sum&＃39;)], &＃39;Pclass&＃39;: [(&＃39;sum_pclass&＃39;,&＃39;sum&＃39;)]})

在这里插入图片描述

小建议

第一节 2.3.1 任务一
第二节 2.5.1

在这里插入图片描述 3. 第二节2.5.1

在这里插入图片描述

第三节 2.4.4

在这里插入图片描述

推荐阅读

get
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
list
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
get
如何在C#中配置组合框的背景颜色？

如何在C#中配置组合框的背景颜色？ ... [详细]

蜡笔小新 2024-11-08 13:06:59
filter
利用Python实现高效语音识别技术

本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法，本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载：链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ，提取码：p57s。 ... [详细]

蜡笔小新 2024-11-07 13:05:53
get
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
get
【Python编程基础】深入理解Python中的循环结构

在《Python编程基础》课程中，我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景，帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外，还将介绍如何利用循环结构解决复杂问题，提高编程效率和代码可读性。 ... [详细]

蜡笔小新 2024-11-04 15:46:58
config
利用 Python 中的 Altair 库实现数据抖动的水平剥离分析

利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]

蜡笔小新 2024-11-02 12:39:54
get
如何在Spark数据排序过程中有效避免内存溢出（OOM）问题

本文深入探讨了在使用Spark进行数据排序时如何有效预防内存溢出（OOM）问题。通过具体的代码示例，详细阐述了优化策略和技术手段，为读者在实际工作中遇到类似问题提供了宝贵的参考和指导。 ... [详细]

蜡笔小新 2024-11-01 16:55:53
shell
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
get
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
get
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
config
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
bit
Codeforces竞赛解析：Educational Round 84（Div. 2评级），题目A：奇数和问题

Codeforces竞赛解析：Educational Round 84（Div. 2评级），题目A：奇数和问题 ... [详细]

蜡笔小新 2024-11-11 14:02:18
get
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
get
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19

瓜瓜哥哥

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章