我知道在deploy模式下运行nutch是基于hadoop的分布式爬行,但是我不能完全理解在本地模式下运行nutch是什么。在这种情况下,nutch独立于hadoop吗?本地模式下的爬行过程不是基于mapreduce的吗?
wnrlj8wa1#
nutch基于mapreduce,不管它如何运行。hadoop lib是nutch的依赖项,在本地模式下,nutch将hadoop相关lib放在类路径上,并在单个jvm中运行。在分布式模式下,调用'hadoop'命令。参见nutch脚本ps:如果您在一台机器上使用nutch,那么在伪分布式模式下运行它是有意义的,这样您就可以让MapReduceUI监视爬网+并行等。。。
1条答案
按热度按时间wnrlj8wa1#
nutch基于mapreduce,不管它如何运行。hadoop lib是nutch的依赖项,在本地模式下,nutch将hadoop相关lib放在类路径上,并在单个jvm中运行。在分布式模式下,调用'hadoop'命令。
参见nutch脚本
ps:如果您在一台机器上使用nutch,那么在伪分布式模式下运行它是有意义的,这样您就可以让MapReduceUI监视爬网+并行等。。。