清理数据_Python数据清理终极指南（2020版）

作者：李敖书-橱 | 来源：互联网 | 2023-09-11 23:00

作者|Lianne&Justin译者|陆离出品|AI科技大本营(ID:rgznai100)一般来说，我们在拟合一个机器学习模型或是统计模型之前，总是要进

作者 | Lianne & Justin

译者 | 陆离

出品 | AI科技大本营(ID:rgznai100)

一般来说&＃xff0c;我们在拟合一个机器学习模型或是统计模型之前&＃xff0c;总是要进行数据清理的工作。因为没有一个模型能用一些杂乱无章的数据来产生对项目有意义的结果。

数据清理或清除是指从一个记录集、表或是数据库中检测和修改(或删除)损坏或不准确的数据记录的过程&＃xff0c;它用于识别数据中不完整的、不正确的、不准确的或者与项目本身不相关的部分&＃xff0c;然后对这些无效的数据进行替换、修改或者删除等操作。

这是个很长的定义&＃xff0c;不过描述的较为简单&＃xff0c;容易理解。

为了简便起见&＃xff0c;我们在Python中新创建了一个完整的、分步的指南&＃xff0c;你将从中学习到如何进行数据查找和清理的一些方法&＃xff1a;

缺失的数据&＃xff1b;
不规则的数据(异常值)&＃xff1b;
不必要的数据——重复数据等&＃xff1b;
不一致的数据——字母大小写、地址等。

在本文中&＃xff0c;我们将使用Kaggle提供的俄罗斯房地产数据集(

https://www.kaggle.com/c/sberbank-russian-housing-market/overview/description)&＃xff0c;目标是要预测一下俄罗斯近期的房价波动。我们不会去清理整个数据集&＃xff0c;因为本文只是会用到其中的一部分示例。

在对数据集开始进行清理工作之前&＃xff0c;让我们先简单地看一下里面的数据。

从上述的结果中&＃xff0c;我们了解到这个数据集总共有30471行和292列&＃xff0c;还确定了特征是数值变量还是分类变量&＃xff0c;这些对我们来说都是有用的信息。现在可以查看一下“dirty”数据类型的列表&＃xff0c;然后逐个进行修复。让我们马上开始。缺失的数据处理缺失的数据是数据清理中最棘手但也是最常见的一种情况。虽然许多模型可以适应各种各样的情况&＃xff0c;但大多数模型都不接受数据的缺失。如何发现缺失的数据&＃xff1f;我们将为你介绍三种技术&＃xff0c;可以进一步了解在数据集中的缺失数据。1、缺失数据的热图当特征数量较少的时候&＃xff0c;我们可以通过热图来进行缺失数据的可视化工作。

下图显示了前30个特征的缺失数据样本。横轴表示特征的名称&＃xff1b;纵轴显示观测的数量以及行数&＃xff1b;黄色表示缺失的数据&＃xff0c;而其它的部分则用蓝色来表示。例如&＃xff0c;我们看到特征life_sq在许多行中是有缺失值的。而特征floor在第7000行附近几乎就没有什么缺失值。

缺失数据热图2、缺失数据的百分比列表当在数据集中有足够多的特征时&＃xff0c;我们可以为每个特征列出缺失数据的百分比。

这将在下面形成一个列表&＃xff0c;用来显示每个特征的缺失值的百分比。具体来说&＃xff0c;我们看到特征life_sq缺失了21%的数据&＃xff0c;特征floor则只缺失了1%。这个列表是一个较为有用的汇总&＃xff0c;根据它就可以补充热图可视化了。

缺失数据的百分比列表——前30个特征3、缺失数据的直方图当我们有足够多特征的时候&＃xff0c;缺失数据的直方图也是一种技术。为了了解更多关于观测数据的缺失值样本的信息&＃xff0c;我们可以使用直方图来对它进行可视化操作。

这个直方图有助于识别30471个观测数据中的缺失值情况。例如&＃xff0c;有6000多个没有缺失值的观测数据&＃xff0c;而将近4000个观测数据中仅有一个缺失值。

缺失数据直方图我们应该怎么做&＃xff1f;对于处理缺失的数据&＃xff0c;没有任何一致的解决办法。我们必须在研究了特定的特征和数据集之后&＃xff0c;来决定处理它们的最佳方式。在下文中&＃xff0c;分别介绍了四种处理缺失数据的常见方法。但是&＃xff0c;如果遇到更复杂的情况&＃xff0c;我们就需要利用一些相对更加复杂的方法&＃xff0c;比如缺失数据建模等。1、放弃观察在统计学中&＃xff0c;这种方法被称为列表删除技术。在这个方案中&＃xff0c;只要包含了一个缺失值&＃xff0c;我们就要删除整条的观测数据。只有当我们确定所缺失的数据没有提供有用信息的时候&＃xff0c;我们才能执行此操作。否则&＃xff0c;我们应该考虑使用其它的办法。当然&＃xff0c;也可以使用其它标准来删除观察数据。例如&＃xff0c;从缺失数据的直方图中&＃xff0c;我们可以看到总共缺失了至少35个以上的特征观测数据。我们可以创建一个新的数据集df_less_missing_rows&＃xff0c;然后删除具有35个以上缺失特征的观测数据。

2、删除特征与方案一比较类似&＃xff0c;我们只有在确定当前特征没有提供任何有用信息的时候才能执行这个操作。例如&＃xff0c;从缺失数据百分比的列表中&＃xff0c;我们注意到hospital_beds_raion的缺失值百分比高达47%。那么&＃xff0c;我们就可以删除整个特征数据了。

3、填补缺失数据当特征是一个数值变量的时候&＃xff0c;可以进行缺失数据的填补。我们会将缺失的值替换为相同特征数据中已有数值的平均值或是中值。当特征是一个分类变量的时候&＃xff0c;我们可以通过模式(最频繁出现的值)来填补缺失的数据。以life_sq为例&＃xff0c;我们可以用它的中值来替换这个特征的缺失值。

此外&＃xff0c;我们还可以同时对所有的数字特征使用相同的填补数据的方式。

比较幸运的是&＃xff0c;我们的数据集中并没有缺失分类特征的值。然而&＃xff0c;我们可以对所有的分类特征进行一次性的模式填补操作。4、替换缺失的数据对于分类特征&＃xff0c;我们可以添加一个类似于“_MISSING_”这样的值&＃xff0c;这是一种新类型的值。对于数值特征&＃xff0c;我们可以使用-999这样的特殊值来替换它。这样&＃xff0c;我们仍然可以保留缺失值作为有用的信息。

不规则的数据(异常值)异常值是与其它的观测值截然不同的数据&＃xff0c;它们可能是真正的异常值或者是错误值。如何发现不规则的数据&＃xff1f;根据特征是数值的还是分类的&＃xff0c;我们可以使用不同的技术来研究其分布特点用以检测它的异常值。1、直方图和方框图当特征是数值的时候&＃xff0c;我们可以使用直方图或者是方框图来检测它的异常值。下面是特征life_sq的直方图。

由于可能存在异常值&＃xff0c;因此&＃xff0c;数据准确性的差别看起来是异常显著的。

直方图为了更深入地研究这个特征&＃xff0c;下面我们来画一个方框图。

在这个图中&＃xff0c;我们可以看到一个超过7000的异常值。

方框图2、描述性统计数据此外&＃xff0c;对于数值特征&＃xff0c;异常值可能过于明显&＃xff0c;以致方框图无法对其进行可视化。相反地&＃xff0c;我们可以看看它们的描述性统计数据。例如&＃xff0c;对于特征life_sq&＃xff0c;我们可以看到最大值是7478&＃xff0c;而75%的四分位数只有43。很明显&＃xff0c;7478值是一个异常值。

3、条形图对于分类特征&＃xff0c;我们可以使用条形图来了解特征的类别以及分布的情况。例如&＃xff0c;特征ecology具有合理的分布&＃xff0c;但是&＃xff0c;如果有一个类别只有一个叫做“other”的值&＃xff0c;那么这肯定就是一个异常值。

条形图4、其它的技术还有许多其它的技术也可以用来发现异常值&＃xff0c;例如散点图、z-score和聚类等等&＃xff0c;在这里将不会一一进行讲解。我们应该怎么做&＃xff1f;虽然寻找异常值并不是什么难事&＃xff0c;但是我们必须确定正确的解决办法来进行处理。它高度依赖于所使用的数据集和项目的目标。处理异常值的方法有些类似于缺失数据的操作。我们要么放弃、要么调整、要么保留它们。对于可能的解决方案&＃xff0c;我们可以参考本文的缺失数据部分。不必要的数据在对缺失数据和异常值进行了所有的努力之后&＃xff0c;让我们看看关于不必要的数据&＃xff0c;这就更简单了。首先&＃xff0c;所有输入到模型中的数据都应该为项目的目标服务。不必要的数据就是数据没有实际的数值。根据不同的情况&＃xff0c;我们主要划分了三种类型的不必要数据。1、无信息或者重复值有时&＃xff0c;一个特征没有有用的信息&＃xff0c;因为太多的行具有相同的值。如何发现无信息或者重复值&＃xff1f;我们可以创建一个具有相同数值的百分比较高的特征列表。例如&＃xff0c;我们在下面指定显示95%以上的具有相同值的行的特征。

我们可以一个一个地研究这些变量&＃xff0c;看看它们是否具有有价值的信息&＃xff0c;在这里就不显示细节了。

我们应该怎么做&＃xff1f;我们需要了解重复特征背后的原因&＃xff0c;当它们真的缺少有用信息的时候&＃xff0c;就可以把它们放弃了。2、不相关的数据同样&＃xff0c;数据需要为项目提供有用的信息。如果这些特征数据与我们在项目中要解决的问题没什么关系&＃xff0c;那么它们就是不相关的。如何发现不相关的数据&＃xff1f;首先&＃xff0c;我们需要浏览一下这些特征&＃xff0c;以便之后能识别那些不相关的数据。例如&＃xff0c;一个记录多伦多天气的特征数据并不能为预测俄罗斯房价提供任何有用的信息。我们应该怎么做&＃xff1f;当这些特征数据并不符合项目的目标时&＃xff0c;我们就可以放弃它们了。3、重复数据重复数据是指存在多个相同的观测值。重复数据主要包含两种类型。(1)基于所有特征的重复数据如何发现基于所有特征的重复数据&＃xff1f;当观察到的所有特征数据都相同的时候&＃xff0c;就会发生这种重复现象&＃xff0c;这是很容易发现的。我们首先要去除数据集中的唯一标识符id&＃xff0c;然后通过删除重复数据来创建一个名为df_dedupped的数据集。我们通过比较两个数据集(df和df_deduped)&＃xff0c;找出有多少个重复行。

得出&＃xff0c;10行是完全重复的观察结果。

我们应该怎么做&＃xff1f;我们应该删除这些重复数据。(2)基于关键特征的重复数据如何发现基于关键特征的重复数据&＃xff1f;有时最好根据一组唯一的标识符来删除那些重复的数据。例如&＃xff0c;同一建筑面积、同一价格、同一建筑年份的两个房产交易同时发生的可能性几乎为零。我们可以设置一组关键特征作为交易的唯一标识符&＃xff0c;包括timestamp、 full_sq、life_sq、floor、build_year、num_room、price_doc&＃xff0c;我们会检查是否有基于这些标识符的副本(重复记录)。

基于这组关键特征&＃xff0c;共有16个副本&＃xff0c;也就是重复数据。

我们应该怎么做&＃xff1f;我们可以根据关键特征删除这些重复数据。

我们在名为df_dedupped2的新数据集中删除了16个重复数据。

不一致的数据让数据集遵循特定的标准来拟合模型也是至关重要的。我们需要用不同的方法去探索数据&＃xff0c;这样就可以找出不一致的数据了。很多时候&＃xff0c;这取决于细致的观察和丰富的经验&＃xff0c;并没有固定的代码用来运行和修复不一致的数据。下面我们将介绍四种不一致的数据类型。1、大小写不一致在分类值中存在着大小写不一致的情况&＃xff0c;这是一个常见的错误。由于Python中的数据分析是区分大小写的&＃xff0c;因此这就可能会导致问题的出现。如何发现大小写不一致&＃xff1f;先让我们来看看特征sub_area。

它用来存储不同地区的名称&＃xff0c;看起来已经非常的标准化了。

但是&＃xff0c;有时候在同一个特征数据中存在着大小写不一致的情况。举个例子&＃xff0c;“Poselenie Sosenskoe”和“pOseleNie sosenskeo”就可能指的是同一地区。我们应该怎么做&＃xff1f;为了避免这种情况的发生&＃xff0c;我们要么所有的字母用小写&＃xff0c;要么全部用大写。

2、数据格式不一致我们需要实行的另一个标准化是数据格式。这里有一个例子&＃xff0c;是将特征从字符串(String)格式转换为日期时间(DateTime)格式。如何发现不一致的数据格式&＃xff1f;特征timestamp是以字符串的格式来表示日期的。

我们应该怎么做&＃xff1f;我们可以使用下面的代码进行转换&＃xff0c;并提取出日期或时间的值。之后&＃xff0c;会更容易按年或月进行分组的交易量分析。3、数据的分类值不一致不一致的分类值是我们要讨论的最后一种不一致数据的类型。分类特征值的数量有限。有时候由于输入错误等原因&＃xff0c;可能会存在其它的值。如何发现不一致的分类值&＃xff1f;我们需要仔细观察一个特征来找出不一致的值&＃xff0c;在这里&＃xff0c;我们用一个例子来说明一下。由于我们在房地产数据集中并不存在这样的问题&＃xff0c;因此&＃xff0c;我们在下面创建了一个新的数据集。例如&＃xff0c;特征city的值被错误地定义为“torontoo”和“tronto”。但它们两个都指向了正确的值“toronto”。一种简单的确认方法是模糊逻辑(或是编辑间隔&＃xff0c;edit distance)。它衡量了我们需要更改一个值的拼写用来与另一个值进行匹配的字母差异数量(距离)。我们知道这些类别应该只有“toronto”、“vancouver”、“montreal”以及“calgary”这四个值。我们计算了所有的值与单词“toronto”(和“vancouver”)之间的距离。可以看到&＃xff0c;那些有可能是打字错误的单词与正确的单词之间的距离较小&＃xff0c;因为它们之间只差了几个字母而已。

我们应该怎么做&＃xff1f;我们可以设置一个标准将这些错误的拼写转换为正确的值。例如&＃xff0c;下面的代码将距离“toronto”2个字母以内的所有值都设置为“toronto”。

4、地址数据不一致地址特征目前成为了我们许多人最头疼的问题。因为人们经常在不遵循标准格式的情况下&＃xff0c;就将数据输入到数据库中了。如何发现不一致的地址&＃xff1f;我们可以通过查看数据来找到难以处理的地址。即使有时候我们发现不了任何问题&＃xff0c;但我们还可以运行代码&＃xff0c;对地址数据进行标准化处理。在我们的数据集中没有属于隐私的地址。因此&＃xff0c;我们利用特征address创建了一个新的数据集df_add_ex。

正如我们所看到的那样&＃xff0c;地址数据可是非常不规范的。

我们应该怎么做&＃xff1f;我们运行下面的代码&＃xff0c;目的是将字母统一变成小写的、删除空格、删除空行以及进行单词标准化。

现在看起来好多了。

我们终于完成了&＃xff0c;经过了一个很长的过程&＃xff0c;清除了那些所有阻碍拟合模型的“dirty”数据。原文链接&＃xff1a;https://towardsdatascience.com/data-cleaning-in-python-the-ultimate-guide-2020-c63b88bf0a0d【end】

◆

原力计划

◆

《原力计划【第二季】- 学习力挑战》正式开始&＃xff01;即日起至 3月21日&＃xff0c;千万流量支持原创作者&＃xff01;更有专属【勋章】等你来挑战

推荐阅读

2019年度CSDN博客之星TOP10榜单揭晓&＃xff0c;你上榜了吗&＃xff1f;
Javascript函数之深入浅出递归思想&＃xff0c;附案例与代码&＃xff01;
不看就亏系列&＃xff01;这里有完整的 Hadoop 集群搭建教程&＃xff0c;和最易懂的 Hadoop 概念&＃xff01;| 附代码
智能合约编写之Solidity的基础特性
微信七年「封链」史
计算机博士、加班到凌晨也要化妆、段子手……IT 女神驾到&＃xff01;

你点的每个“在看”&＃xff0c;我都认真当成了AI

推荐阅读

timestamp
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ip
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
timestamp
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
include
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
subset
a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析

a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析 ... [详细]

蜡笔小新 2024-11-06 14:52:58
ip
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
timestamp
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54
hash
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
include
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
web
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
hash
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
hash
如何以低成本高效构建Hadoop和Spark大数据处理环境

随着“大数据”价值的日益凸显，从互联网、电商到金融和政府机构等各个领域都在积极应对海量数据的处理需求。如何以较低成本快速高效地构建大数据处理平台，已成为推动大数据应用创新的重要因素。为了帮助用户以最简便的方式实现这一目标，本文将详细介绍如何利用Hadoop和Spark技术搭建稳定可靠的大数据处理环境。 ... [详细]

蜡笔小新 2024-11-08 15:31:10
timestamp
在Windows系统上部署并启动MySql免安装版本的详细指南

本文提供了在Windows系统上部署和启动MySQL免安装版本的详细步骤。首先，从MySQL官方网站下载社区版免安装包（https://dev.mysql.com/downloads/mysql/8.0.html），将其解压至指定目录，例如D:\tools\mysql。接着，配置系统环境变量，确保MySQL命令行工具可以在任意路径下使用。此外，还需创建并配置my.ini文件以设置MySQL的基本参数，确保数据库服务能够顺利启动和运行。 ... [详细]

蜡笔小新 2024-11-02 16:49:00

李敖书-橱

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章