lucene 如何从文本语料库中提取语义相关度

dly7yett  于 2022-11-07  发布在  Lucene
关注(0)|答案(2)|浏览(220)

其目标是评估大型文本语料库中术语之间的语义相关性,例如,“police”和“crime”应该比“police”和“mountain”具有更强的语义相关性,因为它们往往在同一上下文中同时出现。
我读到的最简单的方法是从语料库中提取IF-IDF信息。
很多人使用潜在语义分析来发现语义相关性。
我遇到了Lucene搜索引擎:http://lucene.apache.org/
你认为提取IF-IDF是否合适?
你会推荐什么来做我正在尝试做的事情,无论是在技术还是软件工具方面(首选Java)?
提前感谢!
穆洛内

dgtucam1

dgtucam11#

是的,Lucene获取TF-IDF数据。Carrot^2算法是构建在Lucene上的语义提取程序的一个例子。我提到它是因为,作为第一步,他们创建了一个相关矩阵。当然,您可能可以自己轻松地创建这个矩阵。
如果您要处理大量数据,您可能希望使用Mahout来处理较难的线性代数部分。

rqenqsqc

rqenqsqc2#

如果你有lucene索引,这是非常容易的。例如,要得到correllation,你可以使用简单的公式count(term 1和term 2)/ count(term 1)* count(term 2)。其中count是从你的搜索结果中得到的点击数。此外,你可以很容易地计算其他的语义度量,如chi^2,信息增益。所有你需要的是得到公式,并将其从Query转换为count的项

相关问题