亲爱的神奇的BERTopic的创造者
我想对topic_embeddings执行余弦相似度,以便将其与一组标签进行比较。我发现它在我的使用场景中比零样本(更快!)表现得更好。然而,topic_model.topic_embeddings_中的嵌入是384维向量,即它们的维度没有使用hdbscan进行缩减。据我理解,由于这一点,余弦相似度可能会受到维度诅咒的影响。实际上,将最大余弦相似度绘制到我的标签列表中可能表明,让大多数主题与我的标签的余弦相似度降至0.55:
我是否应该添加一个降维步骤?能否直接使用降维后的嵌入来更新topic_model?
再次感谢您的工作
2条答案
按热度按时间rm5edbpk1#
根据我的理解,余弦相似度可能会受到维度诅咒的影响。实际上,这并非完全正确。当然,维度诅咒确实会有一定的影响,但与其他距离度量(如欧几里得距离)相比要小得多。你之所以看到余弦相似度(与点积一起使用)出现在基于嵌入的计算中,是因为这些距离度量效果很好。
对于“最高精度”,在使用普通余弦相似度时,我不建议降低嵌入的维数。然而,在topic_model.topic_embeddings_中的嵌入是384维向量,即它们的维数没有使用hdbscan进行降低。请注意,这是UMAP降低嵌入,而不是HDBSCAN。
hmtdttj42#
非常感谢。是的,我指的是UMAP。