mahout支持词干分析吗?

am46iovg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(341)

我正在使用mahout使用lda进行主题发现。准备我使用的数据 seq2sparse 将文档标记化并创建n-grams。但是,默认情况下它不支持词干分析。我想知道mahout有没有内置词干?如果没有,我应该实施我自己的吗?有什么建议吗?

elcex8rz

elcex8rz1#

你可以用 seq2sparse 命令:

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer

分析器是一个apache lucene分析器,因此您必须按照下面的示例精确命名:

org.apache.lucene.analysis.fr.FrenchAnalyzer

我建议您阅读官方文档,以了解有关如何使用 seqsparse 命令。你还需要阅读一些lucene文档。
附言:你应该使用与mahout相同的lucene版本。

相关问题