rdd存储在哪里？

2uluyalo 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(480)

如果我有一个hadoop集群，比如说，3个数据节点和1个名称节点，在spark代码中，我使用 dataframe.persist(MEMORY_AND_DISK) ，这些数据在哪里持久化？它是在namenode的（driver）内存还是datanode的（executor）内存中，或者两者都在？
另外，缓存数据的存储是否依赖于堆大小？如果是这样，如何增加所有节点的堆大小？

hadoop apache-spark

来源：https://stackoverflow.com/questions/48734415/where-does-an-rdd-get-stored

1条答案

按热度按时间

wbrvyc0a1#

namenode不是驱动程序，datanode不是执行器。yarn框架中的所有spark进程都发生在resourcemanars中（是的，通常在datanodes上），但是它们每个应用程序都有自己的临时存储，这是由yarn配置设置的。
如果需要查找文件，spark ui的storage选项卡可能会告诉您文件的实际位置。
相对于容器大小，通过分别增加执行器/驱动程序内存来增加堆大小。

赞(0）回复(0）举报 2021-05-29

我来回答

rdd存储在哪里？

1条答案

相关问题

热门标签

最新问答