SparkPandas和Pandas有什么不同?

fafcakar  于 2022-09-21  发布在  Spark
关注(0)|答案(2)|浏览(245)

开始在数据库上使用PySpark,我发现我可以同时导入pyspark.pandaspandas。有什么不同?我想它不像koalas,对吧?

5kgi1eie

5kgi1eie1#

PySpark是在Python语言中为Apache Spark提供的接口。它允许您使用Python编写Spark应用程序,并提供了在分布式环境中分析数据的PySpark外壳。Pyspark.pandas是一个API,它允许你使用PANDA函数和对“Spark Dataframe ”的操作。

考拉是由Databricks开发的另一个库,它允许对Spark数据进行类似Pandas的操作。

这篇博客展示了Pandas和Pandas之间的一些不同之处。

Pandas文档当然是参考文件:https://spark.apache.org/docs/3.3.0/api/python/reference/pyspark.pandas/index.html

siotufzp

siotufzp2#

pyspark.pandas是Pandas的替代品,其API**与Pandas相同。这意味着你可以像处理Pandas一样处理Spark源。

例如,要创建 Dataframe ,请使用与Pandas相同的.DataFrame,并使用.iloc.drop_duplicates

import pyspark.pandas as ps
df = ps.DataFrame({'a': [1, 2], 'b':[3, 4]})
df.sort_valyes('b')

df1 = ps.read_csv('data.csv') 
df1.sort_values(by="date")

此外,您还可以将烟火 Dataframe 转换为Pandas Dataframe :

df.to_pandas() #return pandas dataframe

相关问题