我想每天训练10000-20000个非常小的ml模型进行个性化预测。
我正在使用aws sagemaker和MultiElendPoint为模型提供实时预测。下面的文档页和示例笔记本帮助很大,但是没有提到如何训练数千个模型,只有在一个端点上可以托管数千个不同的模型。理想情况下,我想训练所有的模型并行。
我现在的设置是用1个常规训练脚本来训练模型。培训时间很短,每个型号30-40秒。因此,用aws示例上的培训工作来培训它并不理想。因为启动一个示例所需的时间(5分钟)比实际培训时间要多,而且只能并行运行30个作业。示例笔记本中使用了这种方法。
现在,1个模型的训练在sagemaker笔记本上完成,带有训练作业的设置 train_instance_type = 'local'
因此,它不会在单独的aws示例上进行训练,而是使用来自notebook示例的资源。
训练数千个这样的小模型并将工件保存到s3有什么选择?使用lambda创建数千个这样的笔记本并自动执行它们?使用spark?我很想听到一些可以研究的方向。
暂无答案!
目前还没有任何答案,快来回答吧!