我试图遵循这个例子,其中术语频率和逆文档频率是在hive:httpshttp://github.com/myui/hivemall/wiki/tfidf-calculation
我有一个名为pigouthutive的表,其中有以下字段:
“body”列包含由空格分隔的字符串[a-z a-z&0-9]。
我想对body进行标记,以便生成一个与owneruserid和body元组的关系,以便执行tf-idf算法。
我收到一个与tokenize函数相关的错误,有人能告诉我哪里出错了吗?
我的错误如下:编译语句时出错:failed:semanticexception[error 10011]:行8:37无效函数“tokenize”[error\u status]
create or replace view pigoutputhive_exploded
as
select
owneruserid,
body,
score
from
pigoutputhive LATERAL VIEW explode(tokenize(body,true)) t as word
where
not is_stopword(word);
2条答案
按热度按时间7rfyedvj1#
tokenize在配置单元中不起作用,必须使用语句()函数。
w3nuxt5m2#
tokenize函数是hive的一个hivemall扩展。
所以,你需要先安装hivemall。
有关将hivemall函数加载到配置单元的信息,请参见下一页。https://github.com/myui/hivemall/wiki/installation