有一个像下面那样的csv格式的数据集。
FileName,Topic,Tag,Frequency
File-1,Topic -1,Tag-1,10
File-2,Topic -2,Tag-2,10
File-3,Topic -3,Tag-2,10
File-4,Topic -4,Tag-4,10
File-5,Topic -1,Tag-5,10
File-6,Topic -3,Tag-1,10
File-7,Topic -1,Tag-1,10
我需要使用mahout-lda(潜在dirichlet分配)算法找到标签之间的相关性。有谁能帮我找到如何使用apachemahout做到这一点吗。
我也很困惑mahout到底想要什么样的输入格式?
如果有人能分享一些好东西给初学者,那会很有帮助的
1条答案
按热度按时间4sup72z81#
我可能会迟到。但是,mahout不再支持0.6以上版本的lda。我们必须使用cvb而不是lda来完成运行主题模型的任务。
以下链接可以帮助您:
https://mahout.apache.org/users/clustering/lda-commandline.htmlhttpshttp://mahout.apache.org/users/clustering/潜伏期-dirichlet-allocation.html