我是apachepig的新用户,我有以下数据
order=0012,1,23
order=0013,2,34,0015,1,45
order=0011,1,456
...
我试图从下面的记录中提取信息
0012,1,23
0013,2,34
0015,1,45
0011,1,456
...
下面是我尝试过的代码
a = LOAD 'a.txt' Using TextLoader() AS (line:chararray);
b = FOREACH a GENERATE FLATTEN(REGEX_EXTRACT_ALL(line, 'order=((\\d+),(\\d+),(\\d+))+')) AS
(
order_item:chararray,
order_pid: chararray,
order_qty: chararray,
order_price: chararray
);
它不起作用。
另一种方法是“保存到包中”:
a = LOAD 'a.txt' Using TextLoader() AS (line:chararray);
b = FOREACH a GENERATE FLATTEN(REGEX_EXTRACT_ALL(line, 'order=((\\d+),(\\d+),(\\d+))+')) AS
(
B: bag { T: tuple(
order_pid: chararray,
order_qty: chararray,
order_price: char array
)}
);
还是不行。
1条答案
按热度按时间zpf6vheq1#
你能试试这个吗?
输入:
Pig手稿:
输出: