热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

20210502_数据预处理(第二天)

二、数据预处理(第二天)–realpython小建议在最后文章目录二、数据预处理(第二天)来源1数据预处理及特征工程1.1缺失数据统计与处理1.1任务一:缺失值统计
二、数据预处理(第二天)

在这里插入图片描述

–real python

  • 小建议在最后

文章目录

  • 二、数据预处理(第二天)
    • 来源
    • 1 数据预处理及特征工程
      • 1.1 缺失数据统计与处理
        • 1.1 任务一:缺失值统计
        • 1.2 任务二:对缺失值进行处理
      • 1.2 重复值统计及处理
        • 1.2.1 重复值统计
        • 1.2.2 重复值处理
      • 1.3 特征工程
        • 1.3.1 数据分桶
        • 1.3.2 标签编码和独热编码
    • 2 数据重构
      • 2.1 数据合并
        • 2.1.1 横向合并
        • 2.1.2 纵向合并
      • 2.2 数据分组
    • 小建议


来源


  • 文章内容来源于Datewhale的hands-on-data-analysis项目
  • 地址:https://github.com/datawhalechina/hands-on-data-analysis
  • 作者:金娟娟,陈安东,杨佳达,老表,李玲,张文涛,高立业



  • 笔记目的: 借助五一复习一下pandas

1 数据预处理及特征工程


1.1 缺失数据统计与处理


1.1 任务一:缺失值统计

(1) 请查看每个特征缺失值个数

  • 可用 isnaisnull (两个函数没有区别)来查看每个单元格是否缺失, mean查看比例, sum查看数量

df.isnull().sum()

在这里插入图片描述

df.isnull().mean()

在这里插入图片描述

(2) 请查看Age, Cabin, Embarked列的数据

#写入代码
df[['Age','Cabin','Embarked']].head(3)

在这里插入图片描述



1.2 任务二:对缺失值进行处理


  • 处理方式: 删除dropna和填充fillall

  • deopha主要参数为轴方向 axis (默认为0,即删除行)、删除方式 how 、删除的非缺失值个数阈值 thresh ( 非缺失值 没有达到这个数量的相应维度会被删除)、备选的删除子集 subset ,其中 how 主要有 anyall 两种参数可以选择。

  • fillna 中有三个参数是常用的: value, method, limit 。其中, value 为填充值,可以是标量,也可以是索引到元素的字典映射; method 为填充方法,有用前面的元素填充 ffill 和用后面的元素填充 bfill 两种类型, limit 参数表示连续缺失值的最大填充次数。

df1 = df.dropna().head()
df1.reset_index(inplace=True)
df1

在这里插入图片描述

#0填充
df.fillna(0).head()

在这里插入图片描述



1.2 重复值统计及处理


1.2.1 重复值统计


  • duplicated()显示各行是否有重复行,没有重复行显示为FALSE,有重复行显示为TRUE;

df[df.duplicated()]

1.2.2 重复值处理


  • drop_duplicates方法用于返回一个移除了重复行的DataFrame

df.drop_duplicates().head()

在这里插入图片描述

1.3 特征工程


1.3.1 数据分桶


  • 数据分桶是一种数据预处理技术,用于减少次要观察误差的影响

为什么要进行数据分桶?

  1. 离散后稀疏向量内积乘法运算速度更快,计算结果也方便存储,容易扩展;
  2. 离散后的特征对异常值更具鲁棒性,如 age>30 为 1 否则为 0,对于年龄为 200 的也不会对模型造成很大的干扰;
  3. LR 属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这相当于引入了非线性,能够提升模型的表达能力,加大拟合;
  4. 离散后特征可以进行特征交叉,提升表达能力,由 M+N 个变量编程 M*N 个变量,进一步引入非线形,提升了表达能力;
  5. 特征离散后模型更稳定,如用户年龄区间,不会因为用户年龄长了一岁就变化;
  6. 可以将缺失作为独立的一类带入模型;
  7. 将所有的变量变换到相似的尺度上。

  • 分桶方法分为无监督分桶和有监督分桶。
    (1)常用的无监督分桶方法有等频分桶、等距分桶和聚类分桶。
    (2) 有监督分桶主要有best-ks分桶和卡方分桶。
  • pd.cut( x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', )

#将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
df['AgeBand'] = pd.cut(df['Age'], 5,labels = ['1','2','3','4','5'])
df.head()

在这里插入图片描述

#将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段,并分别用类别变量12345表示
df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = ['1','2','3','4','5'])
df.head(3)

在这里插入图片描述

#将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示
df = pd.read_csv('train.csv')
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4','5'])
df.head()

在这里插入图片描述

1.3.2 标签编码和独热编码


  • 标签编码将文本变量Sex, Cabin ,Embarked用数值变量12345表示

df = pd.read_csv('test_clear.csv')
from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket','Sex']:lbl = LabelEncoder() label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))df[feat + "_labelEncode"] = df[feat].map(label_dict)df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))df.head()

在这里插入图片描述

  • 其他方法:

#方法一: replace
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()

#方法二: map
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()



  • 独热编码将文本变量Sex, Cabin, Embarked用one-hot编码表示

for feat in ["Age", "Embarked"]:
# x = pd.get_dummies(df["Age"] // 6)
# x = pd.get_dummies(pd.cut(df['Age'],5))x = pd.get_dummies(df[feat], prefix=feat)df = pd.concat([df, x], axis=1)#df[feat] = pd.get_dummies(df[feat], prefix=feat)df.head()

在这里插入图片描述

2 数据重构


2.1 数据合并


  • 已知有 text-left-up.csv, text-right-up.csv, text-left-down, text-right-down四张表

  • concat 中,最常用的有三个参数,它们是 axis, join, keys ,分别表示拼接方向,连接形式,以及在新表中指示来自于哪一张旧表的名字.

  • join 函数除了必须的 onhow 之外,可以对重复的列指定左右后缀 lsuffixrsuffix 。其中,on 参数指索引名,单层索引时省略参数表示按照当前索引连接。

  • merge主要就是onhow ; left_on 左侧DataFarme中用作连接键的列
    right_on 右侧DataFarme中用作连接键的列


2.1.1 横向合并


  • concat利用 axis=1

result_up = pd.concat([text_left_up,text_right_up],axis=1)
result_down = pd.concat([text_left_down,text_right_down],axis=1)

  • join

resul_up = text_left_up.join(text_right_up)
result_down = text_left_down.join(text_right_down)

  • merge

result_up = pd.merge(text_left_up,text_right_up,left_index=True,right_index=True)
result_down = pd.merge(text_left_down,text_right_down,left_index=True,right_index=True)

2.1.2 纵向合并


  • concat

result = pd.concat([result_up,result_down])

  • append

result = result_up.append(result_down)

2.2 数据分组


  • df.groupby(分组依据)[数据来源].使用操作

  • 1.计算泰坦尼克号男性与女性的平均票价

text = pd.read_csv('result.csv')
text.head()
text.groupby('Sex')['Fare'].mean()

在这里插入图片描述



    1. 统计泰坦尼克号中男女的存活人数

text.groupby('Sex')['Survived'].sum()

3.计算客舱不同等级的存活人数

text.groupby('Pclass')['Survived'].sum()

  • agg()函数复现2和3

text.groupby(['Sex','Pclass'])['Survived'].agg({'Sex': [('sum_sex','sum')], 'Pclass': [('sum_pclass','sum')]})

在这里插入图片描述

小建议


  1. 第一节 2.3.1 任务一
    在这里插入图片描述
  2. 第二节 2.5.1

在这里插入图片描述3. 第二节2.5.1

在这里插入图片描述

  1. 第三节 2.4.4

在这里插入图片描述


推荐阅读
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • 如何在C#中配置组合框的背景颜色? ... [详细]
  • 本文探讨了利用Python实现高效语音识别技术的方法。通过使用先进的语音处理库和算法,本文详细介绍了如何构建一个准确且高效的语音识别系统。提供的代码示例和实验结果展示了该方法在实际应用中的优越性能。相关文件可从以下链接下载:链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ,提取码:p57s。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 在《Python编程基础》课程中,我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景,帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外,还将介绍如何利用循环结构解决复杂问题,提高编程效率和代码可读性。 ... [详细]
  • 利用 Python 中的 Altair 库实现数据抖动的水平剥离分析 ... [详细]
  • 如何在Spark数据排序过程中有效避免内存溢出(OOM)问题
    本文深入探讨了在使用Spark进行数据排序时如何有效预防内存溢出(OOM)问题。通过具体的代码示例,详细阐述了优化策略和技术手段,为读者在实际工作中遇到类似问题提供了宝贵的参考和指导。 ... [详细]
  • 通过将常用的外部命令集成到VSCode中,可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令,从而简化命令执行过程。 ... [详细]
  • 浅析python实现布隆过滤器及Redis中的缓存穿透原理_python
    本文带你了解了位图的实现,布隆过滤器的原理及Python中的使用,以及布隆过滤器如何应对Redis中的缓存穿透,相信你对布隆过滤 ... [详细]
  • 本文对比了杜甫《喜晴》的两种英文翻译版本:a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑,b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]
  • poj 3352 Road Construction ... [详细]
  • Codeforces竞赛解析:Educational Round 84(Div. 2评级),题目A:奇数和问题
    Codeforces竞赛解析:Educational Round 84(Div. 2评级),题目A:奇数和问题 ... [详细]
  • 基于Net Core 3.0与Web API的前后端分离开发:Vue.js在前端的应用
    本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发,并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作,开发环境为Windows 10和Visual Studio 2019,MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装,为开发者提供了一套完整的开发指南。 ... [详细]
  • 技术日志:使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告
    技术日志:使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]
author-avatar
瓜瓜哥哥
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有