是否可以在hdfs上持久化rdd?

irtuqstp  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(542)

我知道rdd可以在内存、磁盘或两者上持久化/缓存,但也可以在hdfs上持久化。我面临的问题是集群上的内存和磁盘空间太少,而hdfs空间很大。

83qze16e

83qze16e1#

rdd持久化最多只能在工作机(内存和磁盘)内实现。一些持久性级别在集群中的其他工作机中生成rdd的副本。
到目前为止,为了在hdfs中持久化rdd/dataframe,我们只能使用write api。
写入hdfs:

// Writing DataFrame
df.write.save("hdfs://namenode_host:port/file/path"); 

//Writing RDD
rdd.saveAsTextFile("hdfs://namenode_host:port/file/path", "codec_if_any");

rdd持久性

相关问题