有哪些选项可以训练成千上万个相对较小的模型

vwkv1x7d 于 2021-07-09 发布在 Spark

关注(0)|答案(0)|浏览(167)

我想每天训练10000-20000个非常小的ml模型进行个性化预测。
我正在使用aws sagemaker和MultiElendPoint为模型提供实时预测。下面的文档页和示例笔记本帮助很大，但是没有提到如何训练数千个模型，只有在一个端点上可以托管数千个不同的模型。理想情况下，我想训练所有的模型并行。
我现在的设置是用1个常规训练脚本来训练模型。培训时间很短，每个型号30-40秒。因此，用aws示例上的培训工作来培训它并不理想。因为启动一个示例所需的时间（5分钟）比实际培训时间要多，而且只能并行运行30个作业。示例笔记本中使用了这种方法。
现在，1个模型的训练在sagemaker笔记本上完成，带有训练作业的设置 train_instance_type = 'local' 因此，它不会在单独的aws示例上进行训练，而是使用来自notebook示例的资源。
训练数千个这样的小模型并将工件保存到s3有什么选择？使用lambda创建数千个这样的笔记本并自动执行它们？使用spark？我很想听到一些可以研究的方向。

python apache-spark machine-learning amazon-sagemaker

来源：https://stackoverflow.com/questions/66885723/what-are-the-options-to-train-thousands-of-relatively-small-models

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

有哪些选项可以训练成千上万个相对较小的模型

暂无答案！

相关问题

热门标签

最新问答