配置单元中的字数问题

pgvzfuti  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(269)

使用配置单元进行字数计算时出现问题。
我的Hive命令就像

select word, count(1) as count 
from (select explode(split(word, ' ' )) as word from note) w   
group by word 
order by count desc 
limit 5
;

结果:

the 20583
of  10388
     9479
and  7611
in   5226

9479是行数。我该怎么处理这个?

7z5jn7bk

7z5jn7bk1#

将split函数更改为-

split(word,'\\s+')

(不是一个空格,而是一个严肃的白色字符 [ \t\n\x0B\f\r] )

相关问题