apachepig不必要地重新运行map reduce作业

6mw9ycah 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(216)

有几次，我有一个Pig的工作流程，我存储多个别名。举个例子，我大概会有

A = LOAD 'data1' USING PigStorage()
B = LOAD 'data2' USING PigStorage()
C = ... # transformation of A
D = ... #transformation of B
E = JOIN C by fieldA, D by fieldB

# STORE E into 'foo'

F = ... # transformation of E
STORE F into 'bar'

我认为如果我取消注解e，它将只添加一个map reduce作业，因为e的结果应该已经在一个临时hadoop输出文件中了。实际上，它总是添加多个作业，就好像pig重新加载a和b，然后从头开始重新计算e一样。
Pig什么时候需要这样做，你如何预防？
使用版本0.11.0。

hadoop apache-pig

来源：https://stackoverflow.com/questions/21294734/apache-pig-needlessly-re-running-map-reduce-jobs

1条答案

按热度按时间

vlju58qv1#

请确保启用了多查询优化，并且像这样运行此脚本

bash> pig script.pig

而不是将代码复制粘贴到grunt shell中。

赞(0）回复(0）举报 2021-06-03

我来回答

apachepig不必要地重新运行map reduce作业

1条答案

相关问题

热门标签

最新问答