我有一些年度文本数据,想要每个月找出上个月不存在的新主题(新兴主题)。同时,也想查看这些新兴主题的趋势,以便了解下个月的情况。
tuwxkamq1#
通常,你可以使用 online topic modeling 来实现这个功能。这种方法可以随着新主题的出现不断找到新的主题。如果你想使用 HDBSCAN 来替代,你可以按照以下步骤操作:
6yt4nkrj2#
你好,我对这个问题很感兴趣。你能详细说明一下你上面提到的步骤吗?我目前正在尝试比较三种方法:在线模型、动态模型和手动模型,以比较旧的主题和新分配的主题,但我不太明白如何验证这些模型的性能或“正确性”。有没有办法比较这些方法呢?
3b6akqbq3#
但是我不太明白如何验证这些模型的性能或“正确性”。有没有办法比较这些方法?
关于验证,没有一种方法适用于所有用例。由于主题建模的性质,你定义的“性能”或“正确性”可能非常主观。有一些指标可以使用,例如一致性和特定于簇的指标,但这都取决于你试图实现的具体目标。
除了上面提到的方法之外,还有一种方法是将不同的主题模型合并在一起,以检测潜在的新主题的出现。你可以在 here 中找到更多关于这个的信息,它已经集成到主分支中,并将在几周内正式发布。
bweufnob4#
另一种方法是将不同的主题模型合并在一起,以检测新主题的潜在出现。你可以在主分支中找到更多关于#1516的信息,它将在几周后正式发布。@MaartenGr:我非常感兴趣地想使用这个!你对这个何时会正式发布有更明确的想法吗?
jexiocij5#
@Macdaddy24 我无法给出一个具体的日期,但我计划在这个月发布新版本。随着软件包的增长,复杂性也在增加,我想确保有足够的文档来涵盖许多使用场景。
k5hmc34c6#
MaartenGr: 听起来不错!我很欣赏你对细节的专注。
6条答案
按热度按时间tuwxkamq1#
通常,你可以使用 online topic modeling 来实现这个功能。这种方法可以随着新主题的出现不断找到新的主题。
如果你想使用 HDBSCAN 来替代,你可以按照以下步骤操作:
6yt4nkrj2#
你好,我对这个问题很感兴趣。你能详细说明一下你上面提到的步骤吗?我目前正在尝试比较三种方法:在线模型、动态模型和手动模型,以比较旧的主题和新分配的主题,但我不太明白如何验证这些模型的性能或“正确性”。有没有办法比较这些方法呢?
3b6akqbq3#
但是我不太明白如何验证这些模型的性能或“正确性”。有没有办法比较这些方法?
关于验证,没有一种方法适用于所有用例。由于主题建模的性质,你定义的“性能”或“正确性”可能非常主观。有一些指标可以使用,例如一致性和特定于簇的指标,但这都取决于你试图实现的具体目标。
除了上面提到的方法之外,还有一种方法是将不同的主题模型合并在一起,以检测潜在的新主题的出现。你可以在 here 中找到更多关于这个的信息,它已经集成到主分支中,并将在几周内正式发布。
bweufnob4#
另一种方法是将不同的主题模型合并在一起,以检测新主题的潜在出现。你可以在主分支中找到更多关于#1516的信息,它将在几周后正式发布。
@MaartenGr:我非常感兴趣地想使用这个!你对这个何时会正式发布有更明确的想法吗?
jexiocij5#
@Macdaddy24 我无法给出一个具体的日期,但我计划在这个月发布新版本。随着软件包的增长,复杂性也在增加,我想确保有足够的文档来涵盖许多使用场景。
k5hmc34c6#
MaartenGr: 听起来不错!我很欣赏你对细节的专注。