提高sagemaker中spark管道模型的性能

vc9ivgsu 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(302)

我们使用spark pipelinemodel在sagemaker-ml管道中进行特征转换。我们从输入请求中提取特征，然后利用pipelinemodel进行特征转换，输出到lightgbm模型。
特征转换包括分类特征上的简单stringindexer，它将分类值转换为数字。
我们希望使用这个sagemaker端点进行实时预测。当我运行一个调用invoke endpoint的测试时，我看到每个调用的延迟平均在180ms左右。
我试着去挖掘哪个部分需要更多的时间。把日志放到我的sagemaker docker中作为时间戳。然后我意识到将分类特征转换为数字特征（使用spark pipelinemodel进行特征转换）大约需要160毫秒。
有什么方法可以提高spark特性转换部分的性能来提高端点的整体延迟吗？另外，由于spark pipelinemodel中的每个阶段都在处理一个单独的分类功能，是否可以并行运行这些阶段？或者它已经并行运行了？
谢谢您
普拉萨德

apache-spark amazon-sagemaker

来源：https://stackoverflow.com/questions/63905676/improve-spark-pipelinemodel-performance-in-sagemaker

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

提高sagemaker中spark管道模型的性能

暂无答案！

相关问题

热门标签

最新问答