BERTopic 有没有一种方法可以定期找到新兴主题?

46scxncf  于 5个月前  发布在  其他
关注(0)|答案(6)|浏览(58)

我有一些年度文本数据,想要每个月找出上个月不存在的新主题(新兴主题)。同时,也想查看这些新兴主题的趋势,以便了解下个月的情况。

tuwxkamq

tuwxkamq1#

通常,你可以使用 online topic modeling 来实现这个功能。这种方法可以随着新主题的出现不断找到新的主题。
如果你想使用 HDBSCAN 来替代,你可以按照以下步骤操作:

  • 在已有的数据上训练一个单一的模型。
  • 在新的月份上训练一个新的模型。
  • 比较两个模型的主题嵌入,以查看哪些主题相似,哪些是新的主题。
  • 使用包含新月份的所有数据创建一个新的模型。
  • 使用 manual BERTopic 在新模型中创建一个包含旧主题和新分配主题的新模型。
6yt4nkrj

6yt4nkrj2#

你好,我对这个问题很感兴趣。你能详细说明一下你上面提到的步骤吗?我目前正在尝试比较三种方法:在线模型、动态模型和手动模型,以比较旧的主题和新分配的主题,但我不太明白如何验证这些模型的性能或“正确性”。有没有办法比较这些方法呢?

3b6akqbq

3b6akqbq3#

但是我不太明白如何验证这些模型的性能或“正确性”。有没有办法比较这些方法?

关于验证,没有一种方法适用于所有用例。由于主题建模的性质,你定义的“性能”或“正确性”可能非常主观。有一些指标可以使用,例如一致性和特定于簇的指标,但这都取决于你试图实现的具体目标。

除了上面提到的方法之外,还有一种方法是将不同的主题模型合并在一起,以检测潜在的新主题的出现。你可以在 here 中找到更多关于这个的信息,它已经集成到主分支中,并将在几周内正式发布。

bweufnob

bweufnob4#

另一种方法是将不同的主题模型合并在一起,以检测新主题的潜在出现。你可以在主分支中找到更多关于#1516的信息,它将在几周后正式发布。
@MaartenGr:我非常感兴趣地想使用这个!你对这个何时会正式发布有更明确的想法吗?

jexiocij

jexiocij5#

@Macdaddy24 我无法给出一个具体的日期,但我计划在这个月发布新版本。随着软件包的增长,复杂性也在增加,我想确保有足够的文档来涵盖许多使用场景。

k5hmc34c

k5hmc34c6#

MaartenGr: 听起来不错!我很欣赏你对细节的专注。

相关问题