SparkPandas和Pandas有什么不同？

fafcakar 于 2022-09-21 发布在 Spark

关注(0)|答案(2)|浏览(245)

开始在数据库上使用PySpark，我发现我可以同时导入pyspark.pandas和pandas。有什么不同？我想它不像koalas，对吧？

pyspark

来源：https://stackoverflow.com/questions/73788459/what-is-the-difference-between-pyspark-pandas-to-pandas

2条答案

按热度按时间

5kgi1eie1#

PySpark是在Python语言中为Apache Spark提供的接口。它允许您使用Python编写Spark应用程序，并提供了在分布式环境中分析数据的PySpark外壳。Pyspark.pandas是一个API，它允许你使用PANDA函数和对“Spark Dataframe ”的操作。

考拉是由Databricks开发的另一个库，它允许对Spark数据进行类似Pandas的操作。

这篇博客展示了Pandas和Pandas之间的一些不同之处。

Pandas文档当然是参考文件：https://spark.apache.org/docs/3.3.0/api/python/reference/pyspark.pandas/index.html

赞(0）回复(0）举报 2022-09-21

siotufzp2#

pyspark.pandas是Pandas的替代品，其API**与Pandas相同。这意味着你可以像处理Pandas一样处理Spark源。

例如，要创建 Dataframe ，请使用与Pandas相同的.DataFrame，并使用.iloc或.drop_duplicates：

import pyspark.pandas as ps
df = ps.DataFrame({'a': [1, 2], 'b':[3, 4]})
df.sort_valyes('b')

df1 = ps.read_csv('data.csv') 
df1.sort_values(by="date")

此外，您还可以将烟火 Dataframe 转换为Pandas Dataframe ：

df.to_pandas() #return pandas dataframe

赞(0）回复(0）举报 2022-09-21

我来回答

SparkPandas和Pandas有什么不同？

2条答案

相关问题

热门标签

最新问答