s和efs的hadoop-etl过程

czfnxgou 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(384)

我是一名数据工程师，有设计、创建数据集成和elt流程的经验。下面是我的用例，我需要将我的过程转移到aws，希望您能给出意见？我要处理的文件是s3。我需要用hadoop处理那些文件。我已经在hive中编写了现有的逻辑，只需要将其迁移到aws。以下方法正确/可行吗？
启动一组ec2示例（最初是5个），启用自动缩放。
创建一个efs，并将其挂载到ec2示例上。
将文件作为hadoop表从s3复制到efs。
在efs中的数据上运行配置单元查询并创建新表。
流程完成后，将final reports表从efs移动/导出到s3（以某种方式）。不确定这是否可行，如果不可行，那么整个解决方案就不可行。6.终止efs和ec2示例。
如果上述方法是正确的，那么hadoop编排是如何使用efs进行的呢？
谢谢，克朗

hadoop Hive etl amazon-ec2 amazon-efs

来源：https://stackoverflow.com/questions/53573756/etl-process-in-aws-using-ec2-s-and-efs

1条答案

按热度按时间

wgx48brx1#

启动一组ec2示例（最初是5个），启用自动缩放。
我不确定你需要自动校准。为什么？假设您启动了一个“大”查询，它需要大量的时间和cpu。
自动缩放将启动更多示例，但它将如何开始在新机器上运行查询的“分数”？
在运行查询之前，所有计算机都需要准备就绪。记住这一点。或者换句话说：只有现在可用的机器才能处理查询。
将文件作为hadoop表从s3复制到efs。
这个主意没什么问题。请记住，您可以将数据保存在efs中。
如果efs对您来说太贵了，请检查为raid 0提供ebs磁性的选项。您将以最低的成本获得最高的速度。
剩下的就可以了，这是“按需”交互分析的方法之一。
请看看雅典娜。
它是一个允许您在s3对象上运行查询的服务。
您可以使用json甚至parquet（这更有效！）
这项服务也许足以满足你的需要。
祝你好运！

赞(0）回复(0）举报 2021-06-02

我来回答

s和efs的hadoop-etl过程

1条答案

相关问题

热门标签

最新问答