这个错误发生在我处理一些文档时。有时会出现这个错误,有时又不会。我查看了错误信息。在 _bertropic.py 文件的第4024行,当主题都是-1时,这个错误会出现,因为 unique_topics 参数为空。有没有办法避免这个错误?
ee7vknir1#
您能否也分享一下您使用的BERTopic版本的完整代码?您传递给BERTopic的文档数量是多少?如果确实只有-1个主题,那么避免这种情况的方法是增加生成的主题数量。很可能,在不知道您的完整代码的情况下,您需要增加min_topic_size或HDBSCAN中等效的min_cluster_size的值。
min_topic_size
min_cluster_size
a11xaf1n2#
你好,我有一个问题。get_topic_info 函数只为每个主题打印了3个代表性文档。那么我如何知道不同文档属于哪个主题?我在你的介绍文档中似乎找不到它。
ev7lccsx3#
那么我如何知道不同文档属于哪个主题?.fit_transform 的输出会给你一个 topic 变量,它包含了一个主题分配给一个文档的情况。你也可以在 topic_model.topics_ 属性中找到这个分配。
.fit_transform
topic
topic_model.topics_
rqmkfv5c4#
那么我如何知道不同的文档属于哪个主题呢?.fit_transform 的输出为您提供了一个 topic 变量,该变量包含将主题分配给文档的信息。您还可以在 topic_model.topics_ 属性中找到此分配。
4条答案
按热度按时间ee7vknir1#
您能否也分享一下您使用的BERTopic版本的完整代码?您传递给BERTopic的文档数量是多少?
如果确实只有-1个主题,那么避免这种情况的方法是增加生成的主题数量。很可能,在不知道您的完整代码的情况下,您需要增加
min_topic_size
或HDBSCAN中等效的min_cluster_size
的值。a11xaf1n2#
你好,我有一个问题。get_topic_info 函数只为每个主题打印了3个代表性文档。那么我如何知道不同文档属于哪个主题?我在你的介绍文档中似乎找不到它。
ev7lccsx3#
那么我如何知道不同文档属于哪个主题?
.fit_transform
的输出会给你一个topic
变量,它包含了一个主题分配给一个文档的情况。你也可以在topic_model.topics_
属性中找到这个分配。rqmkfv5c4#
那么我如何知道不同的文档属于哪个主题呢?
.fit_transform
的输出为您提供了一个topic
变量,该变量包含将主题分配给文档的信息。您还可以在topic_model.topics_
属性中找到此分配。