hive-分析长字符串的共性

qmelpv7a  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(167)

我刚到 hive ,正在找人帮忙。我想得到一个字符串中短语的不同组合。例如,如果字符串是“today was a good day”,我希望查询结果是字符串中按顺序排列的唯一对。比如说:“今天是”“好”“好日子”
然后我想知道每3个单词的组合。所以结果会是:“今天是”“很好”“很好的一天”
然后每四个字,等等。
然后以不同组合的计数结束。
有什么想法吗?谢谢您!
创建表memo\u test\u 2从main\u memo\u table横向视图posexplode(split(memo\u field,“[,]+”)中选择memo\u field作为句子,words.pos,words.word作为词性,word;
创建表memo\u test\u 3选择s1.sentence,收集\u set(concat\u ws('',s1.word,s2.word))作为来自memo\u test\u 2 s1的ngrams内部连接memo\u test\u 2 s2 on s1.sentence=s2.sentence和s1.pos+1=s2.pos
按s1.句子分组;
创建表memo\u test\u 4 select word,count(1)as count from(select explode(ngrams)as word from memo\u test\u 3)w group by word

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题