我们使用spark pipelinemodel在sagemaker-ml管道中进行特征转换。我们从输入请求中提取特征,然后利用pipelinemodel进行特征转换,输出到lightgbm模型。
特征转换包括分类特征上的简单stringindexer,它将分类值转换为数字。
我们希望使用这个sagemaker端点进行实时预测。当我运行一个调用invoke endpoint的测试时,我看到每个调用的延迟平均在180ms左右。
我试着去挖掘哪个部分需要更多的时间。把日志放到我的sagemaker docker中作为时间戳。然后我意识到将分类特征转换为数字特征(使用spark pipelinemodel进行特征转换)大约需要160毫秒。
有什么方法可以提高spark特性转换部分的性能来提高端点的整体延迟吗?另外,由于spark pipelinemodel中的每个阶段都在处理一个单独的分类功能,是否可以并行运行这些阶段?或者它已经并行运行了?
谢谢您
普拉萨德
暂无答案!
目前还没有任何答案,快来回答吧!