有几次,我有一个Pig的工作流程,我存储多个别名。举个例子,我大概会有
A = LOAD 'data1' USING PigStorage()
B = LOAD 'data2' USING PigStorage()
C = ... # transformation of A
D = ... #transformation of B
E = JOIN C by fieldA, D by fieldB
# STORE E into 'foo'
F = ... # transformation of E
STORE F into 'bar'
我认为如果我取消注解e,它将只添加一个map reduce作业,因为e的结果应该已经在一个临时hadoop输出文件中了。实际上,它总是添加多个作业,就好像pig重新加载a和b,然后从头开始重新计算e一样。
Pig什么时候需要这样做,你如何预防?
使用版本0.11.0。
1条答案
按热度按时间vlju58qv1#
请确保启用了多查询优化,并且像这样运行此脚本
而不是将代码复制粘贴到grunt shell中。