在处理数据时如何在azure hdinsight中实现数据分发

2g32fytz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(306)

hadoop的一个卖点是数据与计算机一起存放?这对wasb有什么作用?在处理mapreduce作业时,map和reduce任务在数据块所在的位置执行。这样就实现了数据的局部性。但在hdinsight中,数据存储在wasb中。那么,当执行mapreduce时,数据是否从wasb复制到每个计算节点,然后继续处理呢?如果是这样,那么将数据复制到计算节点的单一通道将是一个瓶颈。
有谁能向我解释一下数据是如何存储在wasb上的,以及在处理数据的过程中是如何处理的?

e1xvtsh3

e1xvtsh31#

hdinsight群集位于azure的任何区域。群集可以读取的存储帐户只能来自同一区域,以避免高延迟。azure在其数据中心上做了大量工作,因此性能相当。
如果你想了解更多,ashish的引语来自本文:https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/

ckx4rj1h

ckx4rj1h2#

就像任何hadoop系统一样,数据在计算时(作业运行时)加载到各个节点的内存中。与wasb的区别在于,数据是从azure存储帐户加载的,而不是从本地磁盘加载的。考虑到构建azure数据中心 Backbone.js 网的方式,性能通常与本地连接到vms的磁盘相同。

相关问题