如何使用apachemahout实现lda?

kmpatx3s  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(412)

有一个像下面那样的csv格式的数据集。

FileName,Topic,Tag,Frequency
File-1,Topic -1,Tag-1,10
File-2,Topic -2,Tag-2,10
File-3,Topic -3,Tag-2,10
File-4,Topic -4,Tag-4,10
File-5,Topic -1,Tag-5,10
File-6,Topic -3,Tag-1,10
File-7,Topic -1,Tag-1,10

我需要使用mahout-lda(潜在dirichlet分配)算法找到标签之间的相关性。有谁能帮我找到如何使用apachemahout做到这一点吗。
我也很困惑mahout到底想要什么样的输入格式?
如果有人能分享一些好东西给初学者,那会很有帮助的

4sup72z8

4sup72z81#

我可能会迟到。但是,mahout不再支持0.6以上版本的lda。我们必须使用cvb而不是lda来完成运行主题模型的任务。
以下链接可以帮助您:
https://mahout.apache.org/users/clustering/lda-commandline.htmlhttpshttp://mahout.apache.org/users/clustering/潜伏期-dirichlet-allocation.html

相关问题