python—如何将pysparkDataframe写入hdfs,然后如何将其读回Dataframe?

huwehgph  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(1210)

我有一个非常大的PyparkDataframe。所以我想对它的子集进行预处理,然后将它们存储到hdfs中。以后我想把它们全部读一遍,合并在一起。谢谢。

mqkwyuun

mqkwyuun1#

将Dataframe写入hdfs(spark 1.6)。

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

一些格式选项是 csv , parquet , json 等。
从hdfs(spark 1.6)读取Dataframe。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
sqlContext.read.format('parquet').load('/path/to/file')

format方法采用如下参数 parquet , csv , json 等。

相关问题