我知道这听起来很傻,但有没有办法从当前在集群从属内存中的文件创建rdd?我知道要创建rdd,我们必须指定存储文件的路径/hdfs路径。但我很好奇,如果我能在java应用程序之间复制对象,并以相同的名称将对象直接放入从属内存中,有没有办法用这些文件创建rdd和/或以分布式方式工作?提前谢谢!
fnx2tebb1#
简短的回答是否定的。“奴隶”根本不参与计算。只有负责资源管理的部分。另一方面,工人本身并不存在。它们与应用程序绑定,因此在应用程序之外没有“当前状态”。你能做的就是创建一个假人 RDD 并在调用某些对象的函数时加载它们。但是,这永远不应该绑定到特定的物理主机。虽然spark对提示首选位置有一定的支持,但不能保证特定的任务将在特定的机器上处理,或者在不同的评估中,即使在同一个应用程序中,分配也是不变的。
RDD
1条答案
按热度按时间fnx2tebb1#
简短的回答是否定的。
“奴隶”根本不参与计算。只有负责资源管理的部分。
另一方面,工人本身并不存在。它们与应用程序绑定,因此在应用程序之外没有“当前状态”。
你能做的就是创建一个假人
RDD
并在调用某些对象的函数时加载它们。但是,这永远不应该绑定到特定的物理主机。虽然spark对提示首选位置有一定的支持,但不能保证特定的任务将在特定的机器上处理,或者在不同的评估中,即使在同一个应用程序中,分配也是不变的。