PySparkDataFrame过滤嵌套列

作者： | 来源：互联网 | 2023-10-14 18:02

我知道那里有很多类似的问题，但我还没有找到任何与我的场景完全匹配的问题，所以请不要对重复标志太满意。我正在使用Spark3.0.1在AzureDatabrick

我知道那里有很多类似的问题，但我还没有找到任何与我的场景完全匹配的问题，所以请不要对重复标志太满意。我正在使用 Spark 3.0.1 在 Azure Databricks 中使用 Python 3 笔记本。

我有以下数据帧

+---+---------+--------+ |ID |FirstName|LastName| +---+---------+--------+ |1 |John |Doe | |2 |Michael | | |3 |Angela |Merkel | +---+---------+--------+

可以使用此代码创建

from pyspark.sql.types import StructType,StructField, StringType, IntegerType import pyspark.sql.functions as F data2 = [(1,"John","Doe"), (2,"Michael",""), (3,"Angela","Merkel") ] schema = StructType([ StructField("ID",IntegerType(),True), StructField("FirstName",StringType(),True), StructField("LastName",StringType(),True), ]) df1 = spark.createDataFrame(data=data2,schema=schema) df1.printSchema() df1.show(truncate=False)

我把它转换成这个 DataFrame

+---+-----------------------------------------+ |ID |Names | +---+-----------------------------------------+ |1 |[[FirstName, John], [LastName, Doe]] | |2 |[[FirstName, Michael], [LastName, ]] | |3 |[[FirstName, Angela], [LastName, Merkel]]| +---+-----------------------------------------+

使用此代码

df2 = df1.select( 'ID', F.array( F.struct( F.lit('FirstName').alias('NameType'), F.col('FirstName').alias('Name') ), F.struct( F.lit('LastName').alias('NameType'), F.col('LastName').alias('Name') ) ).alias('Names') ) df2.printSchema() df2.show(truncate=False)

现在，我想筛选出Names其中LastName为空或为空字符串。我的总体目标是拥有一个可以在 json 中序列化的对象，其中排除Names了空Name值。

像这样

[ { "ID": 1, "Names": [ { "NameType": "FirstName", "Name": "John" }, { "NameType": "LastName", "Name": "Doe" } ] }, { "ID": 2, "Names": [ { "NameType": "FirstName", "Name": "Michael" } ] }, { "ID": 3, "Names": [ { "NameType": "FirstName", "Name": "Angela" }, { "NameType": "LastName", "Name": "Merkel" } ] } ]

我试过了

df2 = df1.select( 'ID', F.array( F.struct( F.lit('FirstName').alias('NameType'), F.col('FirstName').alias('Name') ), F.struct( F.lit('LastName').alias('NameType'), F.col('LastName').alias('Name') ) ).filter(lambda x: x.col('LastName').isNotNull()).alias('Names') )

但我得到了错误'Column' object is not callable。

我也试过，df2 = df2.filter(F.col('Names')['LastName']) > 0)但这给了我一个invalid syntax错误。

我试过了

df2 = df2.filter(lambda x: (len(x)>0), F.col('Names')['LastName'])

但这给出了错误TypeError: filter() takes 2 positional arguments but 3 were given。

有人可以告诉我如何让这个工作吗？

回答

您可以使用高阶函数filter：

import pyspark.sql.functions as F df3 = df2.withColumn( 'Names', F.expr("filter(Names, x -> case when x.NameType = 'LastName' and length(x.Name) = 0 then false else true end)") ) df3.show(truncate=False) +---+-----------------------------------------+ |ID |Names | +---+-----------------------------------------+ |1 |[[FirstName, John], [LastName, Doe]] | |2 |[[FirstName, Michael]] | |3 |[[FirstName, Angela], [LastName, Merkel]]| +---+-----------------------------------------+

推荐阅读

scala
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
text
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
controller
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
text
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
match
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
match
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
post
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
text
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
text
如何通过按钮聚焦ListView的TextCell？ - How to focus ListView's TextCell by button?

IneedtofocusTextCellsonebyoneviaabuttonclick.ItriedlistView.ScrollTo.我需要通过点击按钮逐个关注Tex ... [详细]

蜡笔小新 2024-12-27 17:02:23
controller
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10
audio
Unity 客户端框架设计：UI管理系统的构建

本文详细介绍了如何构建一个高效的UI管理系统，集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑，实现功能逻辑分散化和代码复用，支持多人协作开发。 ... [详细]

蜡笔小新 2024-12-27 10:28:40
audio
USACO 2014 Jan - Moolympics区间记录优化算法

题目描述：给定n个半开区间[a, b)，要求使用两个互不重叠的记录器，求最多可以记录多少个区间。解决方案采用贪心算法，通过排序和遍历实现最优解。 ... [详细]

蜡笔小新 2024-12-27 18:14:31
audio
C语言实现小写金额转换为大写金额

在金融和会计领域，准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据，还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法，确保数据的标准化和规范化。 ... [详细]

蜡笔小新 2024-12-27 12:39:06
web
将Web服务部署到Tomcat

本文介绍了如何在JDeveloper 12c中创建一个Java项目，并将其打包为Web服务，然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]

蜡笔小新 2024-12-27 11:48:15
text
C#中获取进程主窗口句柄的实现方法

本文介绍了如何在C#中启动一个应用程序，并通过枚举窗口来获取其主窗口句柄。当使用Process类启动程序时，我们通常只能获得进程的句柄，而主窗口句柄可能为0。因此，我们需要使用API函数和回调机制来准确获取主窗口句柄。 ... [详细]

蜡笔小新 2024-12-27 03:39:09

Tags | 热门标签

RankList | 热门文章