我正在处理位于amazons3服务器上的~400mb嵌套json文件,使用需要近100次迭代的pig脚本(使用python)执行一些分析。
从目前的情况来看,每次迭代都会将数据加载到ec2中,每次迭代都需要一个小时的执行时间。
我正在用一个 16 core
还有十个 4 core
示例。
有没有一种方法使我不在每次迭代中加载数据?
这种缓慢处理的原因可能是什么?
为了优化处理时间,我的集群配置应该是什么?
我正在处理位于amazons3服务器上的~400mb嵌套json文件,使用需要近100次迭代的pig脚本(使用python)执行一些分析。
从目前的情况来看,每次迭代都会将数据加载到ec2中,每次迭代都需要一个小时的执行时间。
我正在用一个 16 core
还有十个 4 core
示例。
有没有一种方法使我不在每次迭代中加载数据?
这种缓慢处理的原因可能是什么?
为了优化处理时间,我的集群配置应该是什么?
暂无答案!
目前还没有任何答案,快来回答吧!