希望有人能给点建议。目前,我被要求为一个新的azure平台寻找一个可能的基础设施。我们还将在etl和存储中使用hdfs/hadoop。
有人能提供以下建议吗:
设置存储优化服务器(例如,l4、4核、32gb ram、678 gb存储),以便在hdfs中保存原始数据、参考表和最终清理的数据。该服务器可能全天候运行,为我们的分析平台提供数据。
然后,为了利用hadoop的强大功能,我们是否可以启动一组处理服务器(例如,每周一次)从存储服务器读取、处理和写回存储服务器,然后关闭,直到下一个加载和处理任务。
真的很感谢任何人的想法和建议,对这个或任何可能的配置,我们可以想到?
非常感谢
费奥拉诺
1条答案
按热度按时间rdrgkggo1#
无论hadoop集群是在本地还是在云中,它都包含两个主要资源:处理作业的计算资源和保存数据的存储资源。在本地集群中,存储和计算资源被合并到相同的硬件中,将它们连接在一起。使用hdinsight,存储与计算资源完全分离。这是hdinsight的一个非常重要的区别。这意味着我可以完全关闭集群的计算部分,数据仍然可以访问。
注意:要分析hdinsight集群中的数据,可以将数据存储在azure存储、azure数据湖存储或两者中。
有关更多详细信息,请参阅“azure hdinsight文档”。