BERTopic 评估新数据的拟合效果?

zsohkypk  于 3个月前  发布在  其他
关注(0)|答案(1)|浏览(49)

没有提供描述。

xytpbqjk

xytpbqjk1#

有没有一种方法来评估第一个模型“拟合”第二个数据集的程度?我的直觉是,一致性可能并不合适,但也许我错了?我能否查看新数据上的预测,看看有多少落入-1主题类别?或者我可以从较小的数据集创建一个主题模型(它不是太小),查看每个小数据模型主题与较大数据模型主题之间的余弦相似度,以查看是否有任何仅存在于小数据中的主题,而其他模型中没有相应的主题?我是不是想太多了?谢谢任何建议。
当你在未见过的数据上运行预训练模型时,本质上它只是将其放入之前创建的聚类中,因此额外的评估意味着你必须使用先前创建的聚类对这些未见过的数据进行标记。
尽管这是一个有趣的实验,但你首先需要定义一下你正在测量的具体内容,因为它仍然是一个无监督任务。
我的直觉是,一致性可能并不合适,但也许我错了?
这是不可能的,因为主题表示不会改变。你只是将未见过的文档分配给现有的主题。

相关问题