用behemoth在hadoop上运行uima作业

avwztpqn  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(291)

我有一个功能齐全的uima工作,可以做简单的注解。我可以通过我的本地cas gui成功地启动它。
我一直在尝试使用apachebehemoth在hadoop上运行uima作业。我想知道是否有人做过这个?作业成功运行,但在hadoop输出目录中;uima作业没有输出。我可以在hadoop job tracker的输出中看到,作业成功地完成了,并将其输入数据复制到最终的输出目录。
有人能告诉我这里发生了什么,我们需要在uima代码中做些什么额外的更改吗?
谢谢

oknwwptz

oknwwptz1#

下面是我为一个小管道准备的步骤:
将uima管道导出为jar(your pipeline.jar)
复制到hdfs
生成庞然大物语料库(记住下面的所有路径都是hdfs路径

hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/

使用管道处理

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear

列表注解:

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/

将注解转换为文本:

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/
xt0899hw

xt0899hw2#

尝试以下场景:
1) 格雷特庞然大物语料库
2) 在庞然大物语料库上运行tika作业=>tika语料库
3) 在tika语料库上运行uima作业=>uima语料库
4) 通过behemoth的corpusreader查看uima输出语料库,其中-a选项显示了您在/hadoop/conf中的behemoth-site.xml中定义的uima注解。
但问题是我不知道如何从庞然大物(uima)语料库中提取已建立的注解。
我还有cas consumer(在pear文件中),它应该在本地文件系统(不是在hdfs中)的文件中写入uima注解,但是我在文件系统中没有找到这个文件((

相关问题