新安装nutch和solr爬行错误后

anauzrmj  于 2023-01-09  发布在  Solr
关注(0)|答案(1)|浏览(179)

我在新安装nutch 1.19和solr 8.11.2后遇到了一个问题。运行爬网过程后,爬网结束,并显示NullPointerException和以下错误消息:
运行时出错:/opt/solr/apache-nutch-1.19/bin/nutch fetch-数据解析服务器URL = http//localhost:8983/solr/nutch-Dmapreduce. job. reduce = 2-Dmapreduce. reduce. speculative =假-Dmapreduce. map. speculative =假-Dmapreduce. map. output. compress =真-D fetcher. timelimit. mins = 180爬网/段/20230106121647-线程数50失败,退出值为255。
有人知道是什么导致了这个错误吗?

9rbhqvlz

9rbhqvlz1#

错误消息指示内存(Java堆)不足以启动50个提取器线程。您可以尝试以下操作:
1.如果您不需要默认的50个提取器线程,请通过将选项--num-threads n_threads传递到bin/crawl来减少它

  1. Java堆大小可以通过环境变量NUTCH_HEAPSIZE设置-默认值为4 MB,即使有50个线程也足够了,除非您有非常大的文档(例如PDF文件)需要解析和索引。
    1.您的系统可能有限制,要求使用较少的内存或线程

相关问题