要在BERTopic过程中的每个步骤找到种子,您可以在每个步骤之后检查生成的主题分布。例如,在运行topic_model.get_topics()
后,您可以查看主题分布0的内容。然后,您可以将这些内容与运行topic_model.get_topics()
后的主题分布0进行比较,以找出可能引入随机性的步骤。
要设置每个过程的种子,您可以在相应的函数中添加random_state
参数。例如,在使用UMAP
时,您可以这样做:
from umap import UMAP
umap = UMAP(n_neighbors=5, min_dist=0.3, metric='cosine', random_state=42)
这将确保每次运行时都使用相同的随机种子,从而使结果具有一致性。
要找出导致不一致结果的步骤,您可以尝试以下方法:
- 仔细检查每个步骤的文档和源代码,了解它们如何处理随机性。这可能会帮助您找到可能导致不一致的部分。
- 在每个步骤之后保存生成的结果,并将其与前一个步骤的结果进行比较。这可以帮助您确定哪些步骤产生了不同的结果。
- 尝试使用不同的随机种子或参数组合,以查看是否可以获得更一致的结果。这可能需要一些实验和调整。
1条答案
按热度按时间tgabmvqs1#
你尝试过按照FAQ中提到的修复种子吗?这应该能帮助你解决输出问题。