开始在数据库上使用PySpark,我发现我可以同时导入pyspark.pandas和pandas。有什么不同?我想它不像koalas,对吧?
pyspark.pandas
pandas
koalas
5kgi1eie1#
PySpark是在Python语言中为Apache Spark提供的接口。它允许您使用Python编写Spark应用程序,并提供了在分布式环境中分析数据的PySpark外壳。Pyspark.pandas是一个API,它允许你使用PANDA函数和对“Spark Dataframe ”的操作。
Pyspark.pandas
考拉是由Databricks开发的另一个库,它允许对Spark数据进行类似Pandas的操作。
这篇博客展示了Pandas和Pandas之间的一些不同之处。
Pandas文档当然是参考文件:https://spark.apache.org/docs/3.3.0/api/python/reference/pyspark.pandas/index.html
siotufzp2#
pyspark.pandas是Pandas的替代品,其API**与Pandas相同。这意味着你可以像处理Pandas一样处理Spark源。
例如,要创建 Dataframe ,请使用与Pandas相同的.DataFrame,并使用.iloc或.drop_duplicates:
.DataFrame
.iloc
.drop_duplicates
import pyspark.pandas as ps df = ps.DataFrame({'a': [1, 2], 'b':[3, 4]}) df.sort_valyes('b') df1 = ps.read_csv('data.csv') df1.sort_values(by="date")
此外,您还可以将烟火 Dataframe 转换为Pandas Dataframe :
df.to_pandas() #return pandas dataframe
2条答案
按热度按时间5kgi1eie1#
PySpark是在Python语言中为Apache Spark提供的接口。它允许您使用Python编写Spark应用程序,并提供了在分布式环境中分析数据的PySpark外壳。
Pyspark.pandas
是一个API,它允许你使用PANDA函数和对“Spark Dataframe ”的操作。考拉是由Databricks开发的另一个库,它允许对Spark数据进行类似Pandas的操作。
这篇博客展示了Pandas和Pandas之间的一些不同之处。
Pandas文档当然是参考文件:https://spark.apache.org/docs/3.3.0/api/python/reference/pyspark.pandas/index.html
siotufzp2#
pyspark.pandas是Pandas的替代品,其API**与Pandas相同。这意味着你可以像处理Pandas一样处理Spark源。
例如,要创建 Dataframe ,请使用与Pandas相同的
.DataFrame
,并使用.iloc
或.drop_duplicates
:此外,您还可以将烟火 Dataframe 转换为Pandas Dataframe :