A = LOAD 'problem.txt' as line;
--The next two steps use the String Replace function to clean the data as per your needs:
B = FOREACH A GENERATE REPLACE(line,'([^a-zA-Z0-9\\s]+)',',') AS (data:chararray);
C = FOREACH B GENERATE REPLACE(data,'(^,|,$)','');
DUMP C;
1条答案
按热度按时间h7wcgrx31#
以下是解决问题的方法:
problem.txt文件包含以下带有\或特殊字符序列的数据:
示例数据--//actrc5//txn08/scr301/seq//tex021@
第一步是简单地加载数据:
输出:actrc5、txn08、scr301、seq、tex021
这里我使用两个阶段来清理数据,稍后我将尝试发布单步解决方案。现在应该有用了。