我想弄清楚amazon托管的apache hive的机制。我假设,它用s3代替hdfs,用emr代替hadoopmapreduce。我的假设正确吗?
1dkrff031#
你基本上是对的。我想说,在amazon上运行hive最方便的方法是用s3替换hdfs。这是很实用的,因为数据生活在s3上,我们可以根据需要运行hadoop/hive集群。有一个缺点是写性能很慢,所以进行数据转换会很慢。做聚合-基本上是好的同时还有其他配置:在本地驱动器上构建HDF。在ebs卷上构建HDF。每个人都有自己的权衡。
1条答案
按热度按时间1dkrff031#
你基本上是对的。我想说,在amazon上运行hive最方便的方法是用s3替换hdfs。这是很实用的,因为数据生活在s3上,我们可以根据需要运行hadoop/hive集群。有一个缺点是写性能很慢,所以进行数据转换会很慢。做聚合-基本上是好的
同时还有其他配置:
在本地驱动器上构建HDF。
在ebs卷上构建HDF。
每个人都有自己的权衡。