BERTopic 表现最佳的嵌入模型?

byqmnocz  于 3个月前  发布在  其他
关注(0)|答案(2)|浏览(57)

我一直在寻找关于各种预训练模型在聚类和主题建模方面与BERTopic相比的最新信息,而不是如今非常流行的语义搜索,它与RAG管道一起使用。
根据官方文档,all-mpnet-base-v2总体上是最好的,而sentence-t5-xxl在句子相似度方面最好。然而,这两个模型都相当陈旧。肯定有更好的预训练模型可用于相似性/聚类吗?
查看文档,mxbai-embed-large-v1似乎是目前领先的开源权重模型。我应该期望这个模型在BERTopic方面优于all-mpnet-base-v2或sentence-t5-xxl吗?我已经进行了一些非正式测试,但我并不确信这会导致更好的主题。

zkure5ic

zkure5ic1#

我确实建议查看MTEB排行榜,并特别关注clustering指标,因为这正是BERTopic主要使用的。根据我的经验,当使用在排行榜上得分较高的模型时,聚类效果会更好。
然而,请注意,如果数据集相对较大,那么聚类中的小差异可能不会对主题表示产生很大影响。你可能会看到较小聚类之间的差异,但这不太可能影响那些已经有良好表示的大型聚类。

qgzx9mmu

qgzx9mmu2#

你找到了什么吗?

相关问题