热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PySparkDataFrame过滤嵌套列

我知道那里有很多类似的问题,但我还没有找到任何与我的场景完全匹配的问题,所以请不要对重复标志太满意。我正在使用Spark3.0.1在AzureDatabrick

我知道那里有很多类似的问题,但我还没有找到任何与我的场景完全匹配的问题,所以请不要对重复标志满意。我正在使用 Spark 3.0.1 在 Azure Databricks 中使用 Python 3 笔记本。

我有以下数据帧

+---+---------+--------+
|ID |FirstName|LastName|
+---+---------+--------+
|1 |John |Doe |
|2 |Michael | |
|3 |Angela |Merkel |
+---+---------+--------+

可以使用此代码创建

from pyspark.sql.types import StructType,StructField, StringType, IntegerType
import pyspark.sql.functions as F
data2 = [(1,"John","Doe"),
(2,"Michael",""),
(3,"Angela","Merkel")
]
schema = StructType([
StructField("ID",IntegerType(),True),
StructField("FirstName",StringType(),True),
StructField("LastName",StringType(),True),
])
df1 = spark.createDataFrame(data=data2,schema=schema)
df1.printSchema()
df1.show(truncate=False)

我把它转换成这个 DataFrame

+---+-----------------------------------------+
|ID |Names |
+---+-----------------------------------------+
|1 |[[FirstName, John], [LastName, Doe]] |
|2 |[[FirstName, Michael], [LastName, ]] |
|3 |[[FirstName, Angela], [LastName, Merkel]]|
+---+-----------------------------------------+

使用此代码

df2 = df1.select(
'ID',
F.array(
F.struct(
F.lit('FirstName').alias('NameType'),
F.col('FirstName').alias('Name')
),
F.struct(
F.lit('LastName').alias('NameType'),
F.col('LastName').alias('Name')
)
).alias('Names')
)
df2.printSchema()
df2.show(truncate=False)

现在,我想筛选出Names其中LastName为空或为空字符串。我的总体目标是拥有一个可以在 json 中序列化的对象,其中排除Names了空Name值。

像这样

[
{
"ID": 1,
"Names": [
{
"NameType": "FirstName",
"Name": "John"
},
{
"NameType": "LastName",
"Name": "Doe"
}
]
},
{
"ID": 2,
"Names": [
{
"NameType": "FirstName",
"Name": "Michael"
}
]
},
{
"ID": 3,
"Names": [
{
"NameType": "FirstName",
"Name": "Angela"
},
{
"NameType": "LastName",
"Name": "Merkel"
}
]
}
]

我试过了

df2 = df1.select(
'ID',
F.array(
F.struct(
F.lit('FirstName').alias('NameType'),
F.col('FirstName').alias('Name')
),
F.struct(
F.lit('LastName').alias('NameType'),
F.col('LastName').alias('Name')
)
).filter(lambda x: x.col('LastName').isNotNull()).alias('Names')
)

但我得到了错误'Column' object is not callable

我也试过,df2 = df2.filter(F.col('Names')['LastName']) > 0)但这给了我一个invalid syntax错误。

我试过了

df2 = df2.filter(lambda x: (len(x)>0), F.col('Names')['LastName'])

但这给出了错误TypeError: filter() takes 2 positional arguments but 3 were given

有人可以告诉我如何让这个工作吗?

回答


您可以使用高阶函数filter

import pyspark.sql.functions as F
df3 = df2.withColumn(
'Names',
F.expr("filter(Names, x -> case when x.NameType = 'LastName' and length(x.Name) = 0 then false else true end)")
)
df3.show(truncate=False)
+---+-----------------------------------------+
|ID |Names |
+---+-----------------------------------------+
|1 |[[FirstName, John], [LastName, Doe]] |
|2 |[[FirstName, Michael]] |
|3 |[[FirstName, Angela], [LastName, Merkel]]|
+---+-----------------------------------------+






推荐阅读
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有