用cloud9和hadoop提取wikipedia文章文本

kninwzqo  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(430)

首先:我正在读一本新的mac书,运行el capitan 10.11.3,我刚刚下载了最新的hadoop(2.6.0)。
我正在尝试使用cloud9从wikipedia转储的一堆页面中提取主要的文章文本。基本上,他们会在本文档页面的第二个“快速和肮脏”示例中告诉您如何做到这一点:http://lintool.github.io/cloud9/docs/content/wikipedia.html
我下载了所有东西,并在终端中输入了相同的命令:

hadoop jar target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /wiki-sample.xml -wiki_language en -output wiki-sample-output.txt

旁注:我创建了一个sample.xml,其中包含大量wiki转储的前1500行左右,然后是wiki转储末尾的最后几页。我只是想在我真的运行它之前让它运行起来。
不管怎样,我运行这个命令,它好像在做什么,然后在命令行上打印出一堆准文档:

usage: edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText
 -input <path>                              XML dump file
 -output <path>                             output path
 -wiki_language <en|sv|de|cs|es|zh|ar|tr>   two-letter language code
Generic options supported are
-conf <configuration file>     specify an application configuration file
-D <property=value>            use value for given property
-fs <local|namenode:port>      specify a namenode
-jt <local|resourcemanager:port>    specify a ResourceManager
-files <comma separated list of files>    specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars>    specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives>    specify comma separated    archives to be unarchived on the compute machines.

The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]

这些似乎都不是特别有用,而且最重要的是,它不会创建包含文章文本的输出文件。我也尝试过用正确的名称创建一个(空白)输出文件,看看它是否可以填充它,但这也不起作用。
任何关于我可能做错什么的想法都将不胜感激。我对使用hadoop还不熟悉,所以我希望它是我所缺少的一些简单的东西。cloud9页面指出,“截至2015年12月,这个库不再被积极开发或维护”,所以我真的希望这里的人能帮助我。谢谢。塞思
简短的附录:我也试着回到根目录,在开始的时候用完整路径和bin/hadoop运行所有的东西,但是那做了同样的事情。下面是我从根目录发出的(失败的)命令:

bin/hadoop jar /Users/Seth/Documents/Cloud9/target/cloud9-2.0.2-SNAPSHOT-fatjar.jar edu.umd.cloud9.collection.wikipedia.DumpWikipediaToPlainText \ -input /Users/Seth/Documents/Cloud9/wiki-sample.xml -wiki_language en -output /Users/Seth/Documents/Cloud9/wiki-sample-output.txt
xxhby3vn

xxhby3vn1#

不是你特定问题的答案。
但如果你想从维基百科的垃圾堆中获取一个简单、可用的语料库,我建议你使用:https://github.com/idio/json-wikipedia
并行模式使用了机器中的所有资源,而在MacBookPro中使用英文维基百科只需30/45分钟,内存约为16g,内核约为8核

相关问题