从s3在ec2中加载嵌套的json文件并使用python进行迭代?

mhd8tkvw  于 2021-06-24  发布在  Pig
关注(0)|答案(0)|浏览(199)

我正在处理位于amazons3服务器上的~400mb嵌套json文件,使用需要近100次迭代的pig脚本(使用python)执行一些分析。
从目前的情况来看,每次迭代都会将数据加载到ec2中,每次迭代都需要一个小时的执行时间。
我正在用一个 16 core 还有十个 4 core 示例。
有没有一种方法使我不在每次迭代中加载数据?
这种缓慢处理的原因可能是什么?
为了优化处理时间,我的集群配置应该是什么?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题