我有一个非常大的PyparkDataframe。所以我想对它的子集进行预处理,然后将它们存储到hdfs中。以后我想把它们全部读一遍,合并在一起。谢谢。
mqkwyuun1#
将Dataframe写入hdfs(spark 1.6)。
df.write.save('/target/path/', format='parquet', mode='append') ## df is an existing DataFrame object.
一些格式选项是 csv , parquet , json 等。从hdfs(spark 1.6)读取Dataframe。
csv
parquet
json
from pyspark.sql import SQLContext sqlContext = SQLContext(sc) sqlContext.read.format('parquet').load('/path/to/file')
format方法采用如下参数 parquet , csv , json 等。
1条答案
按热度按时间mqkwyuun1#
将Dataframe写入hdfs(spark 1.6)。
一些格式选项是
csv
,parquet
,json
等。从hdfs(spark 1.6)读取Dataframe。
format方法采用如下参数
parquet
,csv
,json
等。