自动化h2o流:从cli运行流

cu6pst1q  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(635)

我已经使用h2o一年半了,但我的工作仅限于r api;h2o流动对我来说是比较新的。如果它对您来说也是新的,那么它基本上是0xdata的ipython版本,但是ipython允许您将笔记本导出到脚本。我在flow中找不到类似的选项。。。
我正在将模型(内置流)移动到生产环境中,我想知道如何使其自动化。有了rapi,在构建和保存模型之后,我可以很容易地将其加载到r中,并通过运行 nohup Rscript <the_file> & 但我不确定如何使用flow来做类似的事情,特别是因为它是在hadoop上运行的。
目前的情况是,每次运行都被分成三部分,流在中间创建了一个相对笨拙的过程:
预处理数据,移动到hdfs
在hadoop上启动h2o, nslookup ip地址h2o正在运行,请逐个单元手动运行flow
运行预测后清理和最后步骤
这是一个非常侵入性的生产过程,我想把所有的结束,但流是使它相当困难。提炼问题:有没有一种方法可以将流压缩到hadoopjar中,然后像这样运行jar hadoop jar <my_flow_jar.jar> ... ?

编辑:

这是H2OR软件包文档。rapi允许您加载一个h2o模型,所以我尝试加载这个流(就好像它是一个h2o模型一样),但不出意外的是,它没有工作(失败的原因是 water.api.FSIOException )因为从技术上讲它不是h2o模型。

64jmpszr

64jmpszr1#

现在已经很晚了,但是(现在)h2o流模型已经自动生成了java代码,表示经过训练的模型(称为pojo),可以剪切和粘贴(比如从远程hadoop会话到本地java文件)。有关如何使用java对象的快速入门教程,请参见此处(https://h2o-release.s3.amazonaws.com/h2o/rel-turing/1/docs-website/h2o-docs/pojo-quick-start.html). 你必须参考H2OJavaAPI(https://h2o-release.s3.amazonaws.com/h2o/rel-turing/8/docs-website/h2o-genmodel/javadoc/hex/genmodel/easy/easypredictmodelwrapper.html)开始定制如何使用pojo,但实际上是将其用作对格式正确的输入进行预测的黑盒。
假设hadoop会话是远程的,用(远程)流会话的ip地址替换示例中的“localhost”。

相关问题