我在.pig文件中有一些pig批处理作业,我希望每小时左右自动在emr上运行一次。我在这里找到了一个这样做的教程,但这需要在我设置的每个作业中使用amazon的gui,我真的宁愿避免这样做。使用whirr有没有一个好方法?或者ruby elastic mapreduce客户端?我所有的文件都在s3中,还有几个Pig缸,里面有我需要使用的函数。
我在.pig文件中有一些pig批处理作业,我希望每小时左右自动在emr上运行一次。我在这里找到了一个这样做的教程,但这需要在我设置的每个作业中使用amazon的gui,我真的宁愿避免这样做。使用whirr有没有一个好方法?或者ruby elastic mapreduce客户端?我所有的文件都在s3中,还有几个Pig缸,里面有我需要使用的函数。
1条答案
按热度按时间czq61nw11#
虽然我不知道如何使用您提到的工具运行pig脚本,但我知道两种可能的方法:
在本地运行文件:可以使用cron
在集群上运行文件:可以使用oozie
也就是说,大多数带有gui的工具也可以通过命令行进行控制(不过,如果您有可用的gui,安装可能会更容易)。