我有很多文件,超过一万份(也许更多)。我想从每个文档中提取一些关键字,比如说从每个文档中提取5个关键字,使用hadoop。每一份文件都可能谈论一个独特的主题。我目前的方法是使用mahout中实现的潜在dirichlet分配(lda)。但是,由于每个文档涉及不同的主题,因此提取的主题的数量应该等于文档的数量,这是非常大的。当主题的数量变大时,lda变得非常低效,因此我的方法是将文档随机分组到每个只有100个文档的小组中,然后使用mahout lda从每个小组中提取100个主题。这种方法是可行的,但可能不是很有效,因为每次我在一小部分文档上运行hadoop时。有人对此有更好(更有效)的想法吗?
暂无答案!
目前还没有任何答案,快来回答吧!