我需要用hadoop/emr处理存储在amazons3和amazonglacier中的数据,并将输出数据保存在rdbms中,例如vertica
我对大数据一窍不通。我只看过一些关于map reduce和sparx的在线会议和ppt。并为学习目的创建了少量的虚拟map-reduce代码。
到目前为止,我只有一些命令可以让我在amazonemr中将数据从s3导入hdfc,然后在处理之后将它们存储在hdfs文件中。
下面是我的问题:
在执行map reduce之前,是否必须首先将数据从s3同步到hdfc,或者是否有直接使用s3的方法如何让hadoop访问amazon冰川数据
最后是如何将输出存储到数据库`
欢迎任何建议/参考。
1条答案
按热度按时间dauxcl2d1#
emr集群能够读/写s3,因此不需要将数据复制到集群。s3有一个hadoop文件系统的实现,所以它可以被看作hdfs。
如果你的mr/spark工作不能直接从glacier获取数据,那么数据必须首先从glacier下载,这本身就是一个漫长的过程。
查看sqoop以获取hdfs和db之间的泵送数据