有没有办法将Spark Df(不是RDD)转换为熊猫DF
我尝试了以下方法:
var some_df = Seq( ("A", "no"), ("B", "yes"), ("B", "yes"), ("B", "no") ).toDF( "user_id", "phone_number")
码:
%pyspark pandas_df = some_df.toPandas()
错误:
NameError: name 'some_df' is not defined
有什么建议么。
以下应该工作
some_df = sc.parallelize([ ("A", "no"), ("B", "yes"), ("B", "yes"), ("B", "no")] ).toDF(["user_id", "phone_number"]) pandas_df = some_df.toPandas()