你好,
我构建了一个主题模型,用于从长期的政治演讲数据中识别主题。大多数“文档”只有几句话长,少数例外是较长的文档,它们可能包含多个主题。然而,我发现默认的bertopic管道在不拆分这些长文档的情况下就能产生良好的主题。
话虽如此,目前我有一个特定的长文档,我认为它具有多个主题的混合成员资格,但当然只被模型标记为有一个主题。将这个具有混合成员资格的文档拆分成较小的部分(假设是段落),然后预测每个段落的主题是否有意义?
此外,我希望在语料库的较高层次上比较一组文档。即衡量第一组中出现的主题与第二组中出现的主题之间的相似性。我想了解这可能是最佳方法吗?
谢谢。
1条答案
按热度按时间vulvrdjw1#
既然如此,在这一点上,我有一个特定的长文档,我相信它包含了多个主题,但当然只被模型标记为一个主题。将这个包含多个主题的文档拆分成更小的部分(假设是段落),然后预测每个段落的主题是否有意义?
有两种方法可以解决这个问题。
首先,正如你提到的,就是简单地将文档拆分成句子/段落,这样你就可以得到句子/段落级别的主题表示。
第二种方法是在单个文档上使用
.approximate_distributions
进行建模。你可以运行类似这样的代码,它应该可以工作: