我是一名数据工程师,有设计、创建数据集成和elt流程的经验。下面是我的用例,我需要将我的过程转移到aws,希望您能给出意见?我要处理的文件是s3。我需要用hadoop处理那些文件。我已经在hive中编写了现有的逻辑,只需要将其迁移到aws。以下方法正确/可行吗?
启动一组ec2示例(最初是5个),启用自动缩放。
创建一个efs,并将其挂载到ec2示例上。
将文件作为hadoop表从s3复制到efs。
在efs中的数据上运行配置单元查询并创建新表。
流程完成后,将final reports表从efs移动/导出到s3(以某种方式)。不确定这是否可行,如果不可行,那么整个解决方案就不可行。6.终止efs和ec2示例。
如果上述方法是正确的,那么hadoop编排是如何使用efs进行的呢?
谢谢,克朗
1条答案
按热度按时间wgx48brx1#
启动一组ec2示例(最初是5个),启用自动缩放。
我不确定你需要自动校准。为什么?假设您启动了一个“大”查询,它需要大量的时间和cpu。
自动缩放将启动更多示例,但它将如何开始在新机器上运行查询的“分数”?
在运行查询之前,所有计算机都需要准备就绪。记住这一点。或者换句话说:只有现在可用的机器才能处理查询。
将文件作为hadoop表从s3复制到efs。
这个主意没什么问题。请记住,您可以将数据保存在efs中。
如果efs对您来说太贵了,请检查为raid 0提供ebs磁性的选项。您将以最低的成本获得最高的速度。
剩下的就可以了,这是“按需”交互分析的方法之一。
请看看雅典娜。
它是一个允许您在s3对象上运行查询的服务。
您可以使用json甚至parquet(这更有效!)
这项服务也许足以满足你的需要。
祝你好运!