我们正在离线训练机器学习模型,并将它们保存在python pickle文件中。我们想知道将这些pickeled模型嵌入流(例如sensorinputstream>predictionjob>outputstream)的最佳方法。apache-flink-ml似乎是用流数据训练模型而不是引用现有模型的正确选择。谢谢你的回复。向洛蒙戈致以亲切的问候
okxuctiv1#
根据您使用的模型,有两种可能的解决方案:simples的想法可能是创建外部服务,该服务将调用模型并返回结果,然后使用 AsyncFunction 使用一些库,同样根据您的模型将预先训练好的模型加载到 ProcessFunction 的 open 方法。然后为每个到达的数据调用模型。第二种解决方案有两个缺点,第一个缺点是需要特定库的java版本可用,另一个缺点是如果您希望能够随时间更新模型的元数据,则需要以某种方式将其外部化。
AsyncFunction
ProcessFunction
open
1条答案
按热度按时间okxuctiv1#
根据您使用的模型,有两种可能的解决方案:
simples的想法可能是创建外部服务,该服务将调用模型并返回结果,然后使用
AsyncFunction
使用一些库,同样根据您的模型将预先训练好的模型加载到ProcessFunction
的open
方法。然后为每个到达的数据调用模型。第二种解决方案有两个缺点,第一个缺点是需要特定库的java版本可用,另一个缺点是如果您希望能够随时间更新模型的元数据,则需要以某种方式将其外部化。