我很想知道一个关于hadoop hdinsight的信息。
本文来自microsoft:https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/
说明hadoop在内部使用存储帐户来存储数据。
假设以上信息是方法,那么hadoop和存储帐户有什么区别呢。如果我只想存储文件等信息,我可以只使用存储帐户,而不是创建hdinsight hadoop?另外,如果hadoop'hadoopcluster'使用存储帐户'stgaccount',是否意味着存储帐户'stgaccount'空间和'hadoopcluster'空间相同?
2条答案
按热度按时间50few1ms1#
再加上benohead的回应,您可以使用azure blob store作为存储,也可以使用最新发布的azure datalake store(adls)——这是一个针对大数据工作负载的高度可扩展和高性能的存储。由于hdinsight将计算与存储分开,因此可以使用vms进行计算,使用azure blog或adls进行存储。您可以使用azure blob或adls,而无需使用hdinsight提供的计算。
qlzsbp2j2#
基本上,在hdinsight部署中,您有两个部分:
hdinsight集群由多个头节点和工作节点(运行软件的虚拟机)组成
存储数据的azure blob存储。
azure blob存储是一种安全的分布式数据存储。无论是否使用hdinsight,都可以使用它。这只是一个有自己定价的云存储。所以,如果你只想在云中存储文件,你绝对不需要hdinsight。
hdinsight群集不可用。实际上,您将看到,您直接存储在head节点的磁盘上的任何内容都会偶尔消失。
hdinsight群集可以访问您在创建群集时指定的存储,并且可以向该存储读/写数据。