我根据以下标准过滤了一个清管器数据集:
A = LOAD 'data' USING PigStorage() as (f1:int,f2:int,f3:int,...);
G1 = FILTER A BY f1<0;
G2 = FILTER A BY (f1+f2)>0;
现在,使用store语句处理上述两个过滤后的数据集并存储输出。
B = FOREACH G1 GENERATE ...
STORE B INTO 'location1'
C = FOREACH G2 GENERATE ...
STORE C INTO 'location2'
由于b和c都是完全独立的,并且是通过处理完全独立的数据集g1和g2生成的,为什么这两个操作不能并行运行?
它们在每个store语句中以顺序方式触发。根据我的理解,在启用多查询执行的情况下,这两个代码块不应该并行运行吗?如果这是不可能的,有没有办法让这些操作并行运行,因为这需要很多时间。
暂无答案!
目前还没有任何答案,快来回答吧!