我被hiveql中的hashtag计数所困扰。我的问题是:我把这些格式的标签放在一行中:
侏罗纪世界;电影;夜晚;恐龙
侏罗纪世界;书;你的票;电影
侏罗纪世界;电影
我看了看https://cwiki.apache.org/confluence/display/hive/languagemanual+udf 但是没有函数,我可以选择分隔符(;)把这些标签分开数一数。
我的结果应该是这样的:
+---------------+-----------+
| Hashtag | Count |
+---------------+-----------+
| jurassicworld | 300 |
| movie | 200 |
| night | 100 |
| dino | 250 |
| book | 50 |
| etc... | 100 |
+---------------+-----------+
1条答案
按热度按时间qlvxas9a1#
我已经创建了以下虚拟表熟食-
我使用了以下查询-
而且,它给我以下的结果为您的数据-