java—在集群上运行ApacheSpark应用程序时,是否可以缓存应用程序jar?

nwsw7zdq  于 2021-06-21  发布在  Mesos
关注(0)|答案(1)|浏览(599)

我有一个apachespark mllib java应用程序,它应该在一个集群上用不同的输入值运行很多次。是否可以在集群上缓存应用程序jar并重用它以减少启动时间、网络负载和组件耦合?
使用的集群管理器有什么不同吗?
如果应用程序jar被缓存,是否可以在我的应用程序的不同示例中使用相同的rdd缓存?

g0czyy6m

g0czyy6m1#

vainilla spark无法做到这一点(在撰写本文时,spark正在快速发展)。
ooyala提供的spark jobserver正好满足您的需求。它在jar中保留了一个寄存器,以便按顺序提交作业,并提供了按名称缓存rdd的附加功能。注意,在spark集群上,spark jobserver充当spark驱动程序。在执行给定任务时,工人仍然需要从驱动程序加载jar。
请参阅以下文档:https://github.com/ooyala/spark-jobserver

相关问题