目前,我的团队正在创建一个使用hdinsight的解决方案。我们每天将获得5tb的数据,需要对这些数据进行一些Map/缩减工作。如果我们的数据将存储在azure表存储中而不是存储在azure hbase中,会有任何性能/成本差异吗?
wljmcqd81#
主要区别在于功能和成本。azure表存储本身没有一个map-reduce引擎,当然您可以使用map-reduce方法来编写自己的。您可以使用azurehdinsight将map reduce连接到表存储。周围有几个连接器,包括我写的一个,它是以配置单元为中心的,需要一些配置,可能不适合您的分区方案(http://www.simonellistonball.com/technology/hadoop-hive-inputformat-azure-tables/)而不是专注于表演,但更完整的版本来自微软的某个人(http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data-with-hdinsight.aspx).表存储的主要优点是,您不必一直承担处理成本。如果您使用hbase,您将需要一直运行一个完整的集群,因此存在成本劣势,但是,您将获得一些功能和性能提升,另外,如果您希望使用其他hadoop平台,您将拥有一些更具可移植性的东西。您还可以使用hbase选项访问范围更广的分析功能。
dgiusagp2#
hdinsight(hbase/hadoop)使用azure blob存储,而不是ats。对于您的数据存储,您将根据您的订阅仅收取适用的blob存储成本。p、 别忘了在作业完成后删除集群,以避免收费。您的数据将保留在blob存储中,并且可以由您构建的下一个集群使用。
2条答案
按热度按时间wljmcqd81#
主要区别在于功能和成本。
azure表存储本身没有一个map-reduce引擎,当然您可以使用map-reduce方法来编写自己的。
您可以使用azurehdinsight将map reduce连接到表存储。周围有几个连接器,包括我写的一个,它是以配置单元为中心的,需要一些配置,可能不适合您的分区方案(http://www.simonellistonball.com/technology/hadoop-hive-inputformat-azure-tables/)而不是专注于表演,但更完整的版本来自微软的某个人(http://blogs.msdn.com/b/mostlytrue/archive/2014/04/04/analyzing-azure-table-storage-data-with-hdinsight.aspx).
表存储的主要优点是,您不必一直承担处理成本。
如果您使用hbase,您将需要一直运行一个完整的集群,因此存在成本劣势,但是,您将获得一些功能和性能提升,另外,如果您希望使用其他hadoop平台,您将拥有一些更具可移植性的东西。您还可以使用hbase选项访问范围更广的分析功能。
dgiusagp2#
hdinsight(hbase/hadoop)使用azure blob存储,而不是ats。对于您的数据存储,您将根据您的订阅仅收取适用的blob存储成本。
p、 别忘了在作业完成后删除集群,以避免收费。您的数据将保留在blob存储中,并且可以由您构建的下一个集群使用。