用Pyspark

作者：honey热情沙漠 | 来源：互联网 | 2023-08-04 06:46

用Pyspark中的dropna清洁数据原文:htt

用 Pyspark

中的 dropna 清洁数据

原文:https://www . geesforgeks . org/cleaning-data-with-drop na-in-py spark/

在处理由许多行和列组成的大数据帧时，它们也由一些行或列中的许多空值或无值组成，或者一些行完全为空或无。因此，在这种情况下，如果我们对包含许多空值或无值的同一数据帧应用操作，那么我们将无法从该数据帧获得正确或所需的输出。为了从数据框中获得正确的输出，我们必须清理它，这意味着我们必须使数据框没有空值或无值。

因此，在本文中，我们将学习如何清理数据框。为了清洁数据框，我们使用 dropna() 功能。该函数用于根据给定的参数从数据框中删除空值。

语法: df.dropna(how=“任意”，thresh =无，subset =无)
其中，df 是数据帧
参数:

how:此参数用于确定行或列是否必须移除。

任何'–如果数据框中的任何值为空，则删除该行或列。

all '–如果特定行或列的所有值都为空，则删除。

阈值:如果特定行或列的非空值小于阈值，则删除该行或列。

子集:如果给定的子集列包含任何空值，则填充该行或列。

要使用 dropna 方法删除空值，首先，我们将创建一个 Pyspark dataframe，然后应用它。

计算机编程语言

# importing necessary libraries from pyspark.sql import SparkSession # function to create new SparkSession def create_session(): spk = SparkSession.builder \ .master("local") \ .appName("Employee_detail.com") \ .getOrCreate() return spk def create_df(spark, data, schema): df1 = spark.createDataFrame(data, schema) return df1 if __name__ == "__main__": # calling function to create SparkSession spark = create_session() input_data = [(1, "Shivansh", "Data Scientist", "Noida"), (2, None, "Software Developer", None), (3, "Swati", "Data Analyst", "Hyderabad"), (4, None, None, "Noida"), (5, "Arpit", "Android Developer", "Banglore"), (6, "Ritik", None, None), (None, None, None, None)] schema = ["Id", "Name", "Job Profile", "City"] # calling function to create dataframe df = create_df(spark, input_data, schema) df.show()

输出:

例 1:使用 PySpark 中的任意参数，用 dropna 清洗数据。

在下面的代码中，我们已经在 dropna()函数中传递了how =“any”参数，这意味着如果有任何行或列具有任何空值，那么我们将从 Dataframe 中删除该行或列。

计算机编程语言

# if any row having any Null # value we are dropping that # rows df = df.dropna(how="any") df.show()

*输出:*

*例 2:使用 PySpark 中的所有参数，用 dropna 清洗数据。*

在下面的代码中，我们已经在 dropna()函数中传递了how = " all "参数，这意味着如果所有的行或列都具有所有的 Null 值，那么我们将从 Dataframe 中删除该特定的行或列。****

计算机编程语言

**# if any row having all Null # values we are dropping that # rows. df = df.dropna(how="all") df.show()**

**输出:****

**例 3:使用 PySpark 中的 thresh 参数用 dropna 清洗数据。****

*在下面的代码中，我们在 dropna()函数中传递了 thresh=2* 参数，这意味着如果有任何行或列的非空值少于 thresh 值，那么我们将从 Dataframe 中删除该行或列。**

计算机编程语言

**# if thresh value is not # satisfied then dropping # that row df = df.dropna(thresh=2) df.show()**

**输出:****

**例 4:使用 PySpark 中的子集参数，用 dropna 清洗数据。****

*在下面的代码中，我们在 dropna()函数中传递了子集='City'* 参数，该参数是 City 列中相应的列名。如果该列中存在任何空值，则我们将从数据框中删除该行。**

计算机编程语言

**# if the subset column any value # is NULL then dropping that row df = df.dropna(subset="City") df.show()**

**输出:****

**例 5:使用 PySpark 中的 thresh 和 subset 参数用 dropna 清洗数据。****

*在下面的代码中，我们在 dropna()函数中传递了 (thresh=2，子集=(“Id”、“Name”、“City”))参数，因此当 thresh=2 和子集=(“Id”、“Name”、“City”)这两个条件都满足时，空值将会下降，这意味着在这三列中 dropna 函数会检查 thresh=2* 是否也满足，如果满足，则删除该特定的行或列。**

计算机编程语言

**# if thresh value is satisfied with subset # column then dropping that row df = df.dropna(thresh=2,subset=("Id","Name","City")) df.show()**

**输出:****

推荐阅读

get
MySQL显示SQL语句执行时间的实例详解

本文详细介绍了如何使用MySQL来显示SQL语句的执行时间，并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法：瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]

蜡笔小新 2023-12-12 16:16:42
get
启动tomcat时,报错:IOException while loading persisted sessions: java.io.EOFException解决方法

window.onload=function(){varinput=document.getElementById(inputinput.onblur= ... [详细]

蜡笔小新 2024-09-26 11:20:05
get
GreenDAO快速入门

前言之前在自己做项目的时候，用到了GreenDAO数据库，其实对于数据库辅助工具库从OrmLite，到litePal再到GreenDAO，总是在不停的切换，但是没有真正去了解他们的 ... [详细]

蜡笔小新 2023-12-11 12:31:00
get
22.Container With Most Water（能装最多水的容器）

thecontainercontainsthemos ... [详细]

蜡笔小新 2024-09-30 18:33:10
get
MyBatis模糊查询和多条件查询

MyBatis模糊查询和多条件查询一、ISmbmsUserDao层根据姓名模糊查询publicListgetUser();多条件查询publicList ... [详细]

蜡笔小新 2024-09-30 13:26:10
get
python元类、反射及双线方法

元类print(type(abc))print(type(True))print(type(100))print(type([1,2,3]))print(type({na ... [详细]

蜡笔小新 2024-09-30 10:42:20
get
Shiro 简单了解

Shiro简单了解简单用过SpringSecurity安全框架后，再试试另一个安全框架——Shiro。1.Shiro简介ApacheShiro是一个强大且易用的Java安全框架：S ... [详细]

蜡笔小新 2024-09-29 15:14:16
express
mongoose schemaType的get:方法 , 再取数据时,方法没有起到作用

domain.js代码如下 ... [详细]

蜡笔小新 2024-09-29 11:52:52
php
rbac 4表常规设计

rbac4表常规设计设计模型：1、管理员表（users）Schema::create('users',function(Blueprint$table){$tabl ... [详细]

蜡笔小新 2024-09-29 11:44:38
get
开发笔记:深度探索！Android之OkHttp网络架构源码解析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了深度探索！Android之OkHttp网络架构源码解析相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-28 17:47:06
get
使用jinja模板中的气流连接

我正在尝试使用环境变量将DB参数传递给BashOperator，但我找不到任何文档/示例如何使用Jinja模板中的连接。所以我正在寻找类似于变量的东西 ... [详细]

蜡笔小新 2024-09-25 12:49:54
config
MyBatis(7) 缓存

MyBatis缓存分为一级缓存和二级缓存一级缓存在SqlSession上二级缓存在SqlSessionFactory上如何配置一级缓存？？默认开启&#x ... [详细]

蜡笔小新 2024-09-25 12:37:37
get
即使有-lwininet链接标志，也没有定义。 - C++ wininet undefined reference even with -lwininet linker flag

ImnewwithWinInetandhavefollowingsimpleC++code:我是WinInet的新手，有以下简单的c++代码:voidDoIt(std::s ... [详细]

蜡笔小新 2024-09-25 09:07:02
get
的错误消息：

ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]

蜡笔小新 2023-12-13 20:28:08
get
学习python课程第六天

一.元祖类型 (tuple)1.什么是元祖?用途:用于存放多个值,当存放的多个值只有读的需求没有改变的需求时,用元祖最合适.定义方式:在()内用逗号分隔开的多个任意类型的值t(1, ... [详细]

蜡笔小新 2023-10-11 22:40:59