gensim Port metrics to select number of LDA topics to Python from R

bakd9h0s 于 5个月前发布在 Python

关注(0)|答案(6)|浏览(131)

一个名为ldatuning的R包实现了4种指标来选择最佳的主题数量。这些指标实现起来相当简单。如果有一个包含这些指标图表的ipynb文件就更好了。同时，也可以查看MDL为LSI ticket #28提供的相关信息。

6条答案

我们是否利用rpy2桥接，还是从头在Python中编写代码？

用Python从头开始编写代码更容易。

在此处有一个Arun度量的实现- https://github.com/AdrienGuille/TOM/blob/master/tom_lib/nlp/topic_model.py#L63
是否可以使用Gensim的实现？

仓库-https://github.com/WZBSocialScienceCenter/tmtoolkit实现了Griffiths、Cao Juan和Arun度量，但目前仅在Gensim中使用Cao Juan。
我们可以在文档中提及这一点并关闭该问题。

@souravsingh TM评估通常不是微不足道的，因此，我们希望将其视为gensim的一部分(在当前库中或在笔记本中，取决于“计算指标的难度”。

你好，这个任务是否已经完成？