BERTopic Output the distance/correlation matrix of topics

6ju8rftf  于 3个月前  发布在  其他
关注(0)|答案(3)|浏览(58)

在可视化热力图中,主题相关矩阵的计算实际上非常有用,例如用于调试目的和作为进行主题减少的指导。它是否有可能成为bertopic类属性的一部分,或者从调用visualize_heatmap输出?

6jjcrrmo

6jjcrrmo1#

目前这是不可能的,因为这将导致更改.visualize_heatmap函数的API。然而,您可以自己提炼部分代码来创建相关矩阵,因为它简化为嵌入之间的简单余弦相似度:
BERTopic/bertopic/plotting/_heatmap.py
第95行在5c9aad2
| | distance_matrix=cosine_similarity(embeddings) |

a6b3iqyw

a6b3iqyw2#

非常感谢Maarten。在阅读了您的源代码后,我也意识到这只是几行代码,很容易在外部实现。
关于这个主题,我想了解一下您对合并主题方法的看法。
我正在处理一个中等大小(约10k个示例)的数据集,我没有标签。所以我对主题的真实分布一无所知,也就是说,这是我的无监督学习案例。
我目前的策略是首先拟合一个能够产生足够多主题的模型,例如30-50个。然后我检查相关矩阵和热图,以找出是否有冗余的主题,例如与其他主题高度相关的那些。然后使用merge_topics()函数来减少数量。
您认为这种方法有意义吗?
非常感谢!

nlejzf6q

nlejzf6q3#

这听起来是一个合理的方法!你也可以使用.reduce_topics来自动减少它们,但无论对你来说哪种方法最好。请注意,你还可以使用hierarchical topic modeling来了解哪些主题可能可以合并。

相关问题