apache spark rdd

axr492tv 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(528)

工具：带有spark0.9.0的hadoop集群（没有Yarn）。
理想的情况是通过hdfs在namenode上运行spark程序，而不在datanode之间进行通信。程序将执行以下操作：
举个例子：在hdfs上，我有两种类型的数据：a和b，我的集群由3个数据节点组成。
我的目标是运行一个程序，它可以处理a和1/3b的所有数据。datanode1与a和b1（第一个第三个）交互，datanode2与a和b2（第二个第三个）交互，datanode3与a和b3交互。。。因此，为了遵守“直到结束机器之间没有通信”的条件，我必须在datanode1的内存中有a和b1，在datanode1的内存中有a和b2。。。
最后将给出每个数据节点上的程序结果。
有没有办法用spark做到这一点？

hadoop hdfs apache-spark cluster-computing clustered-index

来源：https://stackoverflow.com/questions/22815298/apache-spark-rdd

1条答案

按热度按时间

hrirmatl1#

我理解这个问题，如果你想做分布式矩阵分解，并且你知道spark可以帮助你快速完成。首先，使用spark的目的不是为了避免网络负载，使用spark来完成这类任务的目的是，你可以把东西放到内存中，反复多次，而不必重新读/写磁盘（hadoop就是这样）。因此，与使用hadoop相比，您将获得巨大的加速，因为磁盘io比大多数实际计算要慢得多。
我猜你是这样做的：
http://www.mpi-inf.mpg.de/~rgemulla/publications/gemulla11dsgd.pdf
如果您用scala spark编写代码，我很乐意告诉您需要在什么时候调用.cache（）。老实说，我不能通过浏览文章来判断使用spark缓存是否有帮助，但是只需要几分钟就可以将代码重构成最佳的东西，而不了解它到底在做什么。
简言之，答案是no spark不能帮助减少净io，但是yes spark可以帮助减少磁盘io，而且可能是解决问题的合适人选。

赞(0）回复(0）举报 2021-06-04

我来回答

apache spark rdd

1条答案

相关问题

热门标签

最新问答