我一直在寻找关于各种预训练模型在聚类和主题建模方面与BERTopic相比的最新信息,而不是如今非常流行的语义搜索,它与RAG管道一起使用。
根据官方文档,all-mpnet-base-v2总体上是最好的,而sentence-t5-xxl在句子相似度方面最好。然而,这两个模型都相当陈旧。肯定有更好的预训练模型可用于相似性/聚类吗?
查看文档,mxbai-embed-large-v1似乎是目前领先的开源权重模型。我应该期望这个模型在BERTopic方面优于all-mpnet-base-v2或sentence-t5-xxl吗?我已经进行了一些非正式测试,但我并不确信这会导致更好的主题。
2条答案
按热度按时间zkure5ic1#
我确实建议查看MTEB排行榜,并特别关注
clustering
指标,因为这正是BERTopic主要使用的。根据我的经验,当使用在排行榜上得分较高的模型时,聚类效果会更好。然而,请注意,如果数据集相对较大,那么聚类中的小差异可能不会对主题表示产生很大影响。你可能会看到较小聚类之间的差异,但这不太可能影响那些已经有良好表示的大型聚类。
qgzx9mmu2#
你找到了什么吗?