hive-hashtag计数

hc2pp10m  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(380)

我被hiveql中的hashtag计数所困扰。我的问题是:我把这些格式的标签放在一行中:
侏罗纪世界;电影;夜晚;恐龙
侏罗纪世界;书;你的票;电影
侏罗纪世界;电影
我看了看https://cwiki.apache.org/confluence/display/hive/languagemanual+udf 但是没有函数,我可以选择分隔符(;)把这些标签分开数一数。
我的结果应该是这样的:

+---------------+-----------+
| Hashtag       | Count     |
+---------------+-----------+
| jurassicworld | 300       |
| movie         | 200       |
| night         | 100       |
| dino          | 250       | 
| book          | 50        |  
| etc...        | 100       |
+---------------+-----------+
qlvxas9a

qlvxas9a1#

我已经创建了以下虚拟表熟食-

hive> describe deli;
OK
row1                    string                  None

我使用了以下查询-

select hashTag, count(*) as data from deli LATERAL VIEW explode(split(row1,'\\;')) t1 AS hashTag group by hashTag;

而且,它给我以下的结果为您的数据-

book    1
dino    1
jurassicWorld   2
jurassicworld   1
movie   3
night   1
yourtickets     1

相关问题