我正在试验GCP。我有一个Hadoop的本地环境。它由存储在HDFS上的文件和一堆python脚本组成,这些脚本进行API调用并触发pig作业。这些python作业通过cron进行调度。我想了解在GCP中做类似事情的最佳方式。我知道我可以使用GCS作为HDFS的替代品。而且Dataproc可以用来启动Hadoop集群和运行Pig作业。是否可以将这些Python脚本存储到GCS中,使用类似cron的计划来启动Hadoop集群,并指向GCS中的这些Python脚本来运行?
4urapxun1#
如果您正在寻找GCP上的cron作业或工作流调度程序,请考虑:
luaexgnf2#
我发现你可以通过一个“submit pig”作业使用Dataproc来运行Python脚本。这个作业允许你运行Bash脚本,你可以从Bash脚本调用Python脚本:
gcloud dataproc jobs submit pig --cluster=test-python-exec --region=us-central1 -e='fs -cp -f gs://testing_dataproc/main/execution/execute_python.sh file:///tmp/execute_python.sh; sh chmod 750 /tmp/execute_python.sh; sh /tmp/execute_python.sh'
2条答案
按热度按时间4urapxun1#
如果您正在寻找GCP上的cron作业或工作流调度程序,请考虑:
Cloud Scheduler是最简单的一个,但可能是最适合您的用例。Cloud Workflows与Cloud Composer有一些重叠,请在此doc中查看它们的主要区别以及如何选择。
luaexgnf2#
我发现你可以通过一个“submit pig”作业使用Dataproc来运行Python脚本。这个作业允许你运行Bash脚本,你可以从Bash脚本调用Python脚本: