我正在使用mahout使用lda进行主题发现。准备我使用的数据 seq2sparse 将文档标记化并创建n-grams。但是,默认情况下它不支持词干分析。我想知道mahout有没有内置词干?如果没有,我应该实施我自己的吗?有什么建议吗?
seq2sparse
elcex8rz1#
你可以用 seq2sparse 命令:
$MAHOUT_HOME/bin/mahout seq2sparse ... --analyzerName (-a) analyzerName The class name of the analyzer
分析器是一个apache lucene分析器,因此您必须按照下面的示例精确命名:
org.apache.lucene.analysis.fr.FrenchAnalyzer
我建议您阅读官方文档,以了解有关如何使用 seqsparse 命令。你还需要阅读一些lucene文档。附言:你应该使用与mahout相同的lucene版本。
seqsparse
1条答案
按热度按时间elcex8rz1#
你可以用
seq2sparse
命令:分析器是一个apache lucene分析器,因此您必须按照下面的示例精确命名:
我建议您阅读官方文档,以了解有关如何使用
seqsparse
命令。你还需要阅读一些lucene文档。附言:你应该使用与mahout相同的lucene版本。