我想过滤所有包含内部的字符串,但数据没有过滤。在我的Pig剧本里我有:
preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal = FILTER filterdata by NOT(textline MATCHES '.*internal.*');
在aws上使用清管器0.12.0
我想过滤所有包含内部的字符串,但数据没有过滤。在我的Pig剧本里我有:
preload = load '$INPUT' as (textline:chararray);
filterdata = FILTER preload BY SIZE(textline) > 100;
filterInternal = FILTER filterdata by NOT(textline MATCHES '.*internal.*');
在aws上使用清管器0.12.0
1条答案
按热度按时间vom3gejh1#
使用textloader加载,因为您的输入数据集不是以制表符分隔的。
我试过下面的例子,它的工作
a=使用textloader加载“匹配项”(line:chararray);
b=按not筛选a(行匹配“.imran”);
b排土场;