spark rdd访问限制和群集中的位置

pbossiut 于 2021-06-21 发布在 Mesos

关注(0)|答案(1)|浏览(356)

我有一个关于rdd访问控制的问题。
有一个数据必须只保存在给定的服务器（或它们的列表）上，不允许任何原始数据离开它。这些数据可以由一些人来处理 map 只有在这之后才能进一步转移。
spark或支持的群集管理解决方案（如mesos）中是否有任何功能？

rdd apache-spark mesos access-rights

来源：https://stackoverflow.com/questions/30045731/spark-rdd-access-restrictions-and-location-within-the-cluster

1条答案

按热度按时间

ix0qys7i1#

一 HadoopRDD （使用人） sc.textFile 例如）具有位于具有文件数据的计算机上的关联(看到了吗 HadoopRDD.getPreferredLocations .) map 在同一台机器上执行。
但这并不能保证原始数据不会离开机器。例如，如果机器上的Spark加工工死亡，那么另一个加工工将从另一台机器加载Spark加工工。
我认为安全的选择是在“安全”机器上运行一个spark集群（或其他处理系统），执行 map 进入该集群，并将结果写入在“不安全”计算机上运行的hdfs（或其他存储系统）。然后运行在“不安全”机器上的一个单独的Spark束可以处理数据。

赞(0）回复(0）举报 2021-06-21

我来回答

spark rdd访问限制和群集中的位置

1条答案

相关问题

热门标签

最新问答