我知道rdd可以在内存、磁盘或两者上持久化/缓存,但也可以在hdfs上持久化。我面临的问题是集群上的内存和磁盘空间太少,而hdfs空间很大。
83qze16e1#
rdd持久化最多只能在工作机(内存和磁盘)内实现。一些持久性级别在集群中的其他工作机中生成rdd的副本。到目前为止,为了在hdfs中持久化rdd/dataframe,我们只能使用write api。写入hdfs:
// Writing DataFrame df.write.save("hdfs://namenode_host:port/file/path"); //Writing RDD rdd.saveAsTextFile("hdfs://namenode_host:port/file/path", "codec_if_any");
rdd持久性
1条答案
按热度按时间83qze16e1#
rdd持久化最多只能在工作机(内存和磁盘)内实现。一些持久性级别在集群中的其他工作机中生成rdd的副本。
到目前为止,为了在hdfs中持久化rdd/dataframe,我们只能使用write api。
写入hdfs:
rdd持久性