目前,我们不会将原始数据拆分写入单独的文件,即(行号,拆分编号)。当预处理数据过大无法写入磁盘时,这可能会有用。然而,用户可能仍然希望离线检查他们的数据集中哪些行被用于他们的建模运行中的哪些数据子集。这种元数据的潜在位置之一可能是现有的 training_set_metadata.json 文件,或者可能是一个单独的 splits.csv 文件。
training_set_metadata.json
splits.csv
kh212irz1#
当我们在这里写skip_saved_processed_inputs=False信息时,实际上我们确实会写这些信息。请注意,这只适用于我们从文件中使用的数据集,而不是数据框。因此,它可能可以扩展以支持后者。
skip_saved_processed_inputs=False
kzmpq1sx2#
@tgaddair 啊,感谢你的提醒!我们应该确保在文档中包含这个信息。
2条答案
按热度按时间kh212irz1#
当我们在这里写
skip_saved_processed_inputs=False
信息时,实际上我们确实会写这些信息。请注意,这只适用于我们从文件中使用的数据集,而不是数据框。因此,它可能可以扩展以支持后者。kzmpq1sx2#
@tgaddair 啊,感谢你的提醒!我们应该确保在文档中包含这个信息。