BERTopic 最佳方法查找与关键词相关的所有文档

63lcw9qa  于 4个月前  发布在  其他
关注(0)|答案(1)|浏览(75)

假设我有一个大型文档集合的主题模型。要找到与某个关键词(例如示例主题模型中的关键词“Sport”)匹配的所有主题和文档,最好的方法是什么?我知道我可以搜索类似的主题,例如:

similar_topics, similarity = topic_model.find_topics("sport", top_n=20)

但我想知道这是不是最佳/唯一的方法?主题在二维表示中的语义关系并不总是那么清晰(从多维到二维的情况经常如此),所以我不能只是选择附近的主题簇。在这里,你有什么建议作为最佳实践?
非常感谢。

wnrlj8wa

wnrlj8wa1#

.find_topics 是一个很好的解决方案,适用于您的用例。它使用完整的嵌入(无压缩)来查找相关主题。您还可以将关键字嵌入并将其与文档的嵌入进行比较。

相关问题