我正在设置单节点和多节点(1个主节点和1个从节点)群集。当我尝试运行我的应用程序时,单节点和多节点所用的时间是相同的。在我的应用程序中,我将数据从hdfs复制到本地文件系统,然后对其执行处理。这是因为我在本地存储了文件,而群集中的其他节点无法访问这些文件吗?我提供了一个文件,这实际上是分为3块,所以从逻辑上讲,它应该在多节点处理更快。你知道吗?谢谢!
zkure5ic1#
当我尝试运行我的应用程序时,单节点和多节点所用的时间是相同的。所用时间的差异将因执行的操作类型和应用程序生成的负载量而异。例如,在单节点和多节点集群上复制几mb的数据几乎需要相同的时间。甚至,对于小数据集,单节点聚类也比多节点聚类有更好的结果。hadoop的实际功能在于通过利用多节点集群进行并行处理来处理大量的数据集。在我的应用程序中,我将数据从hdfs复制到本地文件系统,然后对其执行处理。我认为在本地文件系统上复制数据以在多节点环境中进行处理没有任何意义。这样,您就限制了自己使用分布式计算的能力。
1条答案
按热度按时间zkure5ic1#
当我尝试运行我的应用程序时,单节点和多节点所用的时间是相同的。
所用时间的差异将因执行的操作类型和应用程序生成的负载量而异。例如,在单节点和多节点集群上复制几mb的数据几乎需要相同的时间。甚至,对于小数据集,单节点聚类也比多节点聚类有更好的结果。hadoop的实际功能在于通过利用多节点集群进行并行处理来处理大量的数据集。
在我的应用程序中,我将数据从hdfs复制到本地文件系统,然后对其执行处理。
我认为在本地文件系统上复制数据以在多节点环境中进行处理没有任何意义。这样,您就限制了自己使用分布式计算的能力。