ApacheNutch不再爬行了

pxq42qpu 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(344)

我有一个双机集群。在一台机器上配置nutch，在另一台机器上配置hbase和hadoop。hadoop处于完全分布式模式，hbase处于伪分布式模式。我已经收集了大约280gb的数据。但现在当我开始爬行的时候。它给出以下消息，不再在上一个表中爬网
info mapreduce.gorarecordreader-gora.buffer.read.limit=10000 info crawl.fetchschedulefactory-使用fetchschedule impl:org.apache.nutch.crawl.defaultfetchschedule
以及下面的bug
错误store.hbasestore-[ljava.lang.stacktraceelement@7ae0c96b型
已提取文档，但未保存在hbase中。但是，如果我在新表中对数据进行爬网，它工作正常，并且能够正确地进行爬网，而不会出现任何错误。我认为这不是一个新表的连接问题，它可以工作。我想是因为一些财产等原因。
有谁能指导我，因为我不是Apache坚果Maven？

Java hadoop hbase nutch web-crawler

来源：https://stackoverflow.com/questions/27097905/apache-nutch-is-not-crawling-any-more