基于不同配置调度多个可能并行的nutch爬网

uqjltbpv  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(166)

我有一个用例,需要用nutch定义特定域的爬行时间表。我很难弄清楚这是怎么回事。在我看来,nutch的设计方式是,它只运行一个示例,这个示例本身就可以处理大量的主机。
所以让我们假设我有三个组织,我会爬他们的网站。每个组织都有自己的一组种子、配置以及活动爬网的开始和停止时间。可以想象,这三个组织中的每一个都会有自己的爬网作业,这些作业会根据组织定义的时间表启动。因此,两个或多个作业可能同时运行。这是可以设置的吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题