作者: | 来源:互联网 | 2023-08-27 09:37
我有一个 PySpark 数据框-
df = spark.createDataFrame([
("u1",['u1_row1','u1_row2','u1_row3']),("u2",['u2_row1','u2_row2']),("u3",['u3_row1']),],['user_id','col_1'])
print(df.printSchema())
df.show()
看起来像-
+-------+--------------------+
|user_id| col_1|
+-------+--------------------+
| u1|[u1_row1,u1_row2...|
| u2| [u2_row1,u2_row2]|
| u3| [u3_row1]|
+-------+--------------------+
现在我希望以这样的方式分解数组,以便为数组中的每个字符串项目获得一个新行。
它应该看起来像-
+-------+---------------------------+
|user_id| col_1_values|
+-------+---------------------------+
| u1| u1_row1|
| u1| u1_row2|
| u1| u1_row3|
| u2| u2_row1|
| u2| u2_row2|
| u3| u3_row1|
+-------+---------------------------+
我如何实现这一目标?