我在Windows10上使用ApacheNutch1.14,Java1.8。我遵循了上面提到的步骤https://wiki.apache.org/nutch/nutchtutorial.
当我尝试使用cygwin上的命令在crawldb中插入url时:bin/nutch inject crawl/crawldb url
我得到以下错误:injector:java.io.ioexception:(null)命令字符串中的条目:null chmod 0644 e:\apache-nutch-1.4\runtime\local\crawl\crawldb.locked at org.apache.hadoop.util.shell$shellcommandexecutor.execute(shell)。java:773)
我查了一下日志发现:
2018-01-18 10:55:26785错误util.shell-在hadoop二进制文件路径java.io.ioexception中找不到winutils二进制文件:在hadoop二进制文件中找不到可执行文件null\bin\winutils.exe。
我已经在好几页上搜索了这个错误,但都没有帮助。
1条答案
按热度按时间hmmo2u0o1#
在windows中创建新目录,例如c:\winutil。
在winutil create bin目录中
打开https://minhaskamal.github.io/downgit/#/home
粘贴https://github.com/steveloughran/winutils/tree/master/hadoop-2.8.1 并下载winutil-hadoop2.8.1
提取c:\winutil\bin中的zip内容
将hadoop\u home变量添加到系统变量中,并使其引用c:\winutil
在cygin中重新运行爬网命令