有哪些选项可以训练成千上万个相对较小的模型

vwkv1x7d  于 2021-07-09  发布在  Spark
关注(0)|答案(0)|浏览(163)

我想每天训练10000-20000个非常小的ml模型进行个性化预测。
我正在使用aws sagemaker和MultiElendPoint为模型提供实时预测。下面的文档页和示例笔记本帮助很大,但是没有提到如何训练数千个模型,只有在一个端点上可以托管数千个不同的模型。理想情况下,我想训练所有的模型并行。
我现在的设置是用1个常规训练脚本来训练模型。培训时间很短,每个型号30-40秒。因此,用aws示例上的培训工作来培训它并不理想。因为启动一个示例所需的时间(5分钟)比实际培训时间要多,而且只能并行运行30个作业。示例笔记本中使用了这种方法。
现在,1个模型的训练在sagemaker笔记本上完成,带有训练作业的设置 train_instance_type = 'local' 因此,它不会在单独的aws示例上进行训练,而是使用来自notebook示例的资源。
训练数千个这样的小模型并将工件保存到s3有什么选择?使用lambda创建数千个这样的笔记本并自动执行它们?使用spark?我很想听到一些可以研究的方向。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题