如何在hadoop中创建nutch作业

ifmq2ha2  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(310)

hadoop jar apache-nutch-1.6.job org.apache.nutch.crawl.crawl firstsite/url-dir url-depth 1-topn 5

Exception in thread "main" java.io.IOException: Error opening job jar: apache-nutch-1.6.job
        at org.apache.hadoop.util.RunJar.main(RunJar.java:90)
Caused by: java.io.FileNotFoundException: apache-nutch-1.6.job (No such file or directory)
        at java.util.zip.ZipFile.open(Native Method)
        at java.util.zip.ZipFile.<init>(ZipFile.java:215)
        at java.util.zip.ZipFile.<init>(ZipFile.java:145)
        at java.util.jar.JarFile.<init>(JarFile.java:153)
        at java.util.jar.JarFile.<init>(JarFile.java:90)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:88)
djmepvbi

djmepvbi1#

直接的答案是您的apache-nutch-1.6.job丢失或不在当前目录中。
apache nutch.job文件(例如apache-nutch-1.9.job)是在runtime/deploy/编译nutch(通过“ant”)时创建的。请注意,创建此文件需要apache nutch的源代码发行版,而不是二进制版本。
job文件实际上是一个jar文件。它比apache-nutch-1.9.jar大得多,因为它包含了其中的所有依赖项(以及conf/中的文件),所以它包含了运行hadoop作业所需的所有内容。

相关问题