pandas 如何分散pyspark.sql.DataFrame?

9rbhqvlz  于 2023-04-28  发布在  Spark
关注(0)|答案(2)|浏览(75)

我只发现pyspark.pandas.DataFrame可以散射。
参考:https://spark.apache.org/docs/3.2.1/api/python/reference/pyspark.pandas/api/pyspark.pandas.DataFrame.plot.scatter.html
pyspark.sql.DataFramepyspark.pandas.DataFrame之间的关系是什么?
我可以将pyspark.sql.DataFrame转换为pyspark.pandas.DataFrame吗?

zu0ti5jz

zu0ti5jz1#

是的,您可以使用to_pandas_on_spark(doc)或pandas_api(doc)函数轻松地将Spark DataFrame转换为Spark Pandas DataFrame(取决于Spark版本-后者在Spark 3.3+中)。

osh3o9ms

osh3o9ms2#

为了解决你的第二个问题,似乎你只需要toPandas

df = spark.range(500).selectExpr("rand() as col1", "rand() as col2")

df.toPandas().plot.scatter(x="col1", y="col2", figsize=(5, 3)); #adjust the params here

输出:

  • 使用的输入:*
+-------------------+-------------------+
|               col1|               col2|
+-------------------+-------------------+
|0.30635985539888333| 0.4870719189567285|
|0.42598409012829175| 0.7952023956810078|
|0.11566134855017962|  0.526445377673446|
| 0.9904776216970759|0.21399932251819465|
|  0.745479774526823| 0.9353658749650922|
+-------------------+-------------------+
only showing top 5 rows

相关问题