从s3在ec2中加载嵌套的json文件并使用python进行迭代？

mhd8tkvw 于 2021-06-24 发布在 Pig

关注(0)|答案(0)|浏览(211)

我正在处理位于amazons3服务器上的~400mb嵌套json文件，使用需要近100次迭代的pig脚本（使用python）执行一些分析。
从目前的情况来看，每次迭代都会将数据加载到ec2中，每次迭代都需要一个小时的执行时间。
我正在用一个 16 core 还有十个 4 core 示例。
有没有一种方法使我不在每次迭代中加载数据？
这种缓慢处理的原因可能是什么？
为了优化处理时间，我的集群配置应该是什么？

JSON python amazon-s3 apache-pig amazon-ec2

来源：https://stackoverflow.com/questions/18468208/loading-nested-json-files-in-ec2-from-s3-and-using-python-for-iterations

暂无答案！

目前还没有任何答案，快来回答吧！

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前