我想在本地模式下运行pig,这非常简单pig-x local file.pig 我的要求是从oozie以本地模式运行pig?有没有可能像我想的那样,oozie会先自动启动map任务?
file.pig
y4ekin9u1#
这是可能的。当一个pig脚本由oozie运行时,它将作为一个map map reduce作业运行,该作业只运行pig脚本,而pig脚本又运行其他map reduce作业(当pig在中运行时) mapred 模式)。看起来,pig操作配置不允许在本地模式下运行,但是您仍然可以使用shell操作类型在本地模式下运行pig脚本。您只需确保您的脚本、输入和输出数据都在hdfs中。
mapred
utugiqy62#
我不认为,我们可以在oozie的本地模式下运行pig。维沙写的评论很有道理。在某些情况下,数据量较少的情况下,最好使用pig本地模式。要在本地模式下运行,可以通过编写shell脚本并在crontab中调度来运行。据我所知,它不适合很好,因为oozie是运行在hdfs。如果你想让oozie运行一些数据。它期望数据在hdfs中(即分布式的),而且你必须在hdfs中也有pig脚本。我记得看到alangates的帖子,他提到pig是用来处理来自/到hdfs的数据的,hive是本地到hdfs或hdfs到hdfs的。
2条答案
按热度按时间y4ekin9u1#
这是可能的。当一个pig脚本由oozie运行时,它将作为一个map map reduce作业运行,该作业只运行pig脚本,而pig脚本又运行其他map reduce作业(当pig在中运行时)
mapred
模式)。看起来,pig操作配置不允许在本地模式下运行,但是您仍然可以使用shell操作类型在本地模式下运行pig脚本。您只需确保您的脚本、输入和输出数据都在hdfs中。
utugiqy62#
我不认为,我们可以在oozie的本地模式下运行pig。维沙写的评论很有道理。在某些情况下,数据量较少的情况下,最好使用pig本地模式。要在本地模式下运行,可以通过编写shell脚本并在crontab中调度来运行。据我所知,它不适合很好,因为oozie是运行在hdfs。
如果你想让oozie运行一些数据。它期望数据在hdfs中(即分布式的),而且你必须在hdfs中也有pig脚本。我记得看到alangates的帖子,他提到pig是用来处理来自/到hdfs的数据的,hive是本地到hdfs或hdfs到hdfs的。