假设我有一个大型文档集合的主题模型。要找到与某个关键词(例如示例主题模型中的关键词“Sport”)匹配的所有主题和文档,最好的方法是什么?我知道我可以搜索类似的主题,例如:
similar_topics, similarity = topic_model.find_topics("sport", top_n=20)
但我想知道这是不是最佳/唯一的方法?主题在二维表示中的语义关系并不总是那么清晰(从多维到二维的情况经常如此),所以我不能只是选择附近的主题簇。在这里,你有什么建议作为最佳实践?
非常感谢。
1条答案
按热度按时间wnrlj8wa1#
.find_topics
是一个很好的解决方案,适用于您的用例。它使用完整的嵌入(无压缩)来查找相关主题。您还可以将关键字嵌入并将其与文档的嵌入进行比较。