如何从大量文档中提取关键字？

imzjd6km 于 2021-05-30 发布在 Hadoop

关注(0)|答案(0)|浏览(274)

我有很多文件，超过一万份（也许更多）。我想从每个文档中提取一些关键字，比如说从每个文档中提取5个关键字，使用hadoop。每一份文件都可能谈论一个独特的主题。我目前的方法是使用mahout中实现的潜在dirichlet分配（lda）。但是，由于每个文档涉及不同的主题，因此提取的主题的数量应该等于文档的数量，这是非常大的。当主题的数量变大时，lda变得非常低效，因此我的方法是将文档随机分组到每个只有100个文档的小组中，然后使用mahout lda从每个小组中提取100个主题。这种方法是可行的，但可能不是很有效，因为每次我在一小部分文档上运行hadoop时。有人对此有更好（更有效）的想法吗？

hadoop mapreduce lda mahout

来源：https://stackoverflow.com/questions/29639074/how-to-extract-keywords-from-lots-of-documents

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何从大量文档中提取关键字？

暂无答案！

相关问题

热门标签

最新问答