我在新安装nutch 1.19和solr 8.11.2后遇到了一个问题。运行爬网过程后,爬网结束,并显示NullPointerException和以下错误消息:
运行时出错:/opt/solr/apache-nutch-1.19/bin/nutch fetch-数据解析服务器URL = http//localhost:8983/solr/nutch-Dmapreduce. job. reduce = 2-Dmapreduce. reduce. speculative =假-Dmapreduce. map. speculative =假-Dmapreduce. map. output. compress =真-D fetcher. timelimit. mins = 180爬网/段/20230106121647-线程数50失败,退出值为255。
有人知道是什么导致了这个错误吗?
1条答案
按热度按时间9rbhqvlz1#
错误消息指示内存(Java堆)不足以启动50个提取器线程。您可以尝试以下操作:
1.如果您不需要默认的50个提取器线程,请通过将选项
--num-threads n_threads
传递到bin/crawl来减少它NUTCH_HEAPSIZE
设置-默认值为4 MB,即使有50个线程也足够了,除非您有非常大的文档(例如PDF文件)需要解析和索引。1.您的系统可能有限制,要求使用较少的内存或线程