并行处理—如何将特定数据分发到spark中的每个群集节点?

csbfibhn  于 2021-05-22  发布在  Spark
关注(0)|答案(2)|浏览(548)

我正在spark集群中部署我的程序,我需要给每个节点一个我决定的特定数据列表。我该怎么做?我用我的数据创建了一个rdd对象,但是我不知道如何将数据的特定部分传递给每个节点。

7lrncoxx

7lrncoxx1#

我不认为,你可以把一个特定的列表传递给节点。如果您的数据有唯一的密钥,那么您可以使用哈希技术在特定分区上发送相同的密钥

hc2pp10m

hc2pp10m2#

不可能,因为您无法控制分配了哪些工作节点,并且,n个执行器可能在同一个工作节点上。

相关问题