使用pig的自定义分隔符(|)的字数

lvjbypge  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(318)

我是一个新手Pig拉丁语。我想处理下面的文件,并计算最发生的字。
hadoop是一个开源的基于java的编程框架,它支持在分布式计算环境中对大量数据集进行处理和存储。
该文件包含 | 作为分隔符。

p8h8hvxi

p8h8hvxi1#

这里有很多单词计数的例子。不管怎样,这里有一个带分隔符“|”的例子

lines = LOAD 'input.txt' AS (line:chararray);
newlines = FOREACH lines GENERATE REPLACE(line,'\\|',' ') AS newline;
words = FOREACH newlines GENERATE FLATTEN(TOKENIZE(newline)) as word;
grouped = GROUP words BY word;
w_count = FOREACH grouped GENERATE group, COUNT(words);
DUMP w_count;

相关问题