rdd存储在哪里?

2uluyalo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(480)

如果我有一个hadoop集群,比如说,3个数据节点和1个名称节点,在spark代码中,我使用 dataframe.persist(MEMORY_AND_DISK) ,这些数据在哪里持久化?它是在namenode的(driver)内存还是datanode的(executor)内存中,或者两者都在?
另外,缓存数据的存储是否依赖于堆大小?如果是这样,如何增加所有节点的堆大小?

wbrvyc0a

wbrvyc0a1#

namenode不是驱动程序,datanode不是执行器。yarn框架中的所有spark进程都发生在resourcemanars中(是的,通常在datanodes上),但是它们每个应用程序都有自己的临时存储,这是由yarn配置设置的。
如果需要查找文件,spark ui的storage选项卡可能会告诉您文件的实际位置。
相对于容器大小,通过分别增加执行器/驱动程序内存来增加堆大小。

相关问题