作为我当前项目的一部分,我需要在hadoop集群上处理托管在amazons3(公共爬网数据集)上的19tib数据。
我想采用的方法是批量下载数据集:
下载 N
千兆字节的文件
使用hadoop处理文件,保存结果并删除包含数据的文件(下载下一个文件时) N
千兆字节的文件)
重复
这种方法允许我用有限的存储容量处理数据。
问题是:我应该采取什么方法来实现这一点?我考虑过使用2个hadoop作业—一个下载数据,另一个在第一个作业完成后处理数据。这是最好的解决办法吗?
有没有一些工具考虑到了这个用例?
暂无答案!
目前还没有任何答案,快来回答吧!