从维基百科文章中提取java关键字

u5rb5r59  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(531)

我有一个文档列表,我正在根据用户对apachesolr的查询为这些文档编制索引。我想通过使用关键字从相关索引文档中提取一些新闻文章,并将其与索引文档一起显示给用户。有没有什么算法或程序可以从文档中提取相关的关键字,并用它来提取新闻?

k2fxgqgv

k2fxgqgv1#

你应该研究tf-idf关键字提取。大约两年前,我使用英语wiki和一个简单的python脚本对此做了类似的处理。你需要先回答几个问题,然后再继续。你可以在这里找到一个关于使用tf-idf关键字提取的简洁的小文章
你只关心单个关键字,还是你会评估短语以及长度?
您是否会对传入的数据进行任何自然语言处理,例如标记和词干分析?
你会把关键词限制在特定的文章类型吗?某些类别的文章可以有自己的tf-idf分数,所以你可能想尝试你需要的东西。

相关问题