python—如何将pysparkDataframe写入hdfs，然后如何将其读回Dataframe？

huwehgph 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(1210)

我有一个非常大的PyparkDataframe。所以我想对它的子集进行预处理，然后将它们存储到hdfs中。以后我想把它们全部读一遍，合并在一起。谢谢。

1条答案

将Dataframe写入hdfs（spark 1.6）。

df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.

一些格式选项是 csv , parquet , json 等。
从hdfs（spark 1.6）读取Dataframe。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
sqlContext.read.format('parquet').load('/path/to/file')

format方法采用如下参数 parquet , csv , json 等。