hadoop的一个卖点是数据与计算机一起存放?这对wasb有什么作用?在处理mapreduce作业时,map和reduce任务在数据块所在的位置执行。这样就实现了数据的局部性。但在hdinsight中,数据存储在wasb中。那么,当执行mapreduce时,数据是否从wasb复制到每个计算节点,然后继续处理呢?如果是这样,那么将数据复制到计算节点的单一通道将是一个瓶颈。有谁能向我解释一下数据是如何存储在wasb上的,以及在处理数据的过程中是如何处理的?
e1xvtsh31#
hdinsight群集位于azure的任何区域。群集可以读取的存储帐户只能来自同一区域,以避免高延迟。azure在其数据中心上做了大量工作,因此性能相当。如果你想了解更多,ashish的引语来自本文:https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/
ckx4rj1h2#
就像任何hadoop系统一样,数据在计算时(作业运行时)加载到各个节点的内存中。与wasb的区别在于,数据是从azure存储帐户加载的,而不是从本地磁盘加载的。考虑到构建azure数据中心 Backbone.js 网的方式,性能通常与本地连接到vms的磁盘相同。
2条答案
按热度按时间e1xvtsh31#
hdinsight群集位于azure的任何区域。群集可以读取的存储帐户只能来自同一区域,以避免高延迟。azure在其数据中心上做了大量工作,因此性能相当。
如果你想了解更多,ashish的引语来自本文:https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/
ckx4rj1h2#
就像任何hadoop系统一样,数据在计算时(作业运行时)加载到各个节点的内存中。与wasb的区别在于,数据是从azure存储帐户加载的,而不是从本地磁盘加载的。考虑到构建azure数据中心 Backbone.js 网的方式,性能通常与本地连接到vms的磁盘相同。