在处理数据时如何在azure hdinsight中实现数据分发

2g32fytz 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(306)

hadoop的一个卖点是数据与计算机一起存放？这对wasb有什么作用？在处理mapreduce作业时，map和reduce任务在数据块所在的位置执行。这样就实现了数据的局部性。但在hdinsight中，数据存储在wasb中。那么，当执行mapreduce时，数据是否从wasb复制到每个计算节点，然后继续处理呢？如果是这样，那么将数据复制到计算节点的单一通道将是一个瓶颈。
有谁能向我解释一下数据是如何存储在wasb上的，以及在处理数据的过程中是如何处理的？

hadoop hdfs Azure azure-hdinsight

来源：https://stackoverflow.com/questions/39264204/how-data-distribution-is-achieved-in-azure-hdinsight-while-processing-it

2条答案

按热度按时间

e1xvtsh31#

hdinsight群集位于azure的任何区域。群集可以读取的存储帐户只能来自同一区域，以避免高延迟。azure在其数据中心上做了大量工作，因此性能相当。
如果你想了解更多，ashish的引语来自本文：https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/

赞(0）回复(0）举报 2021-05-29

ckx4rj1h2#

就像任何hadoop系统一样，数据在计算时（作业运行时）加载到各个节点的内存中。与wasb的区别在于，数据是从azure存储帐户加载的，而不是从本地磁盘加载的。考虑到构建azure数据中心 Backbone.js 网的方式，性能通常与本地连接到vms的磁盘相同。

赞(0）回复(0）举报 2021-05-29