hadoop 可以从Dataproc触发Python脚本吗?

fkaflof6  于 2022-11-01  发布在  Hadoop
关注(0)|答案(2)|浏览(181)

我正在试验GCP。我有一个Hadoop的本地环境。它由存储在HDFS上的文件和一堆python脚本组成,这些脚本进行API调用并触发pig作业。这些python作业通过cron进行调度。
我想了解在GCP中做类似事情的最佳方式。我知道我可以使用GCS作为HDFS的替代品。而且Dataproc可以用来启动Hadoop集群和运行Pig作业。
是否可以将这些Python脚本存储到GCS中,使用类似cron的计划来启动Hadoop集群,并指向GCS中的这些Python脚本来运行?

4urapxun

4urapxun1#

如果您正在寻找GCP上的cron作业或工作流调度程序,请考虑:

  1. Cloud Scheduler,它是一个完全受管理的企业级cron作业调度程序;
  2. Cloud Workflows结合了Google云服务和API,可轻松构建可靠的应用、流程自动化以及数据和机器学习管道。
  3. Cloud Composer,这是一种基于Apache Airflow构建的完全托管的工作流编排服务。
    Cloud Scheduler是最简单的一个,但可能是最适合您的用例。Cloud Workflows与Cloud Composer有一些重叠,请在此doc中查看它们的主要区别以及如何选择。
luaexgnf

luaexgnf2#

我发现你可以通过一个“submit pig”作业使用Dataproc来运行Python脚本。这个作业允许你运行Bash脚本,你可以从Bash脚本调用Python脚本:

gcloud dataproc jobs submit pig --cluster=test-python-exec --region=us-central1 -e='fs -cp -f gs://testing_dataproc/main/execution/execute_python.sh file:///tmp/execute_python.sh; sh chmod 750 /tmp/execute_python.sh; sh /tmp/execute_python.sh'

相关问题