用behemoth在hadoop上运行uima作业

avwztpqn 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(291)

我有一个功能齐全的uima工作，可以做简单的注解。我可以通过我的本地cas gui成功地启动它。
我一直在尝试使用apachebehemoth在hadoop上运行uima作业。我想知道是否有人做过这个？作业成功运行，但在hadoop输出目录中；uima作业没有输出。我可以在hadoop job tracker的输出中看到，作业成功地完成了，并将其输入数据复制到最终的输出目录。
有人能告诉我这里发生了什么，我们需要在uima代码中做些什么额外的更改吗？
谢谢

hadoop uima

来源：https://stackoverflow.com/questions/12562098/running-uima-job-on-hadoop-with-behemoth

2条答案

按热度按时间

oknwwptz1#

下面是我为一个小管道准备的步骤：
将uima管道导出为jar（your pipeline.jar）
复制到hdfs
生成庞然大物语料库（记住下面的所有路径都是hdfs路径）

hadoop jar tika/target/behemoth-tika-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.tika.TikaDriver -i /user/blah/ -o /user/blah/

使用管道处理

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMADriver /user/blah/ /user/blah/ /apps/Your-pipeline.pear

列表注解：

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.util.CorpusReader -i -a /user/blah/

将注解转换为文本：

hadoop jar uima/target/behemoth-uima-1.1-SNAPSHOT-job.jar com.digitalpebble.behemoth.uima.UIMABin2TxtConverter -a -i /user/blah/ -o /user/blah/

赞(0）回复(0）举报 2021-06-03

xt0899hw2#

尝试以下场景：
1）格雷特庞然大物语料库
2）在庞然大物语料库上运行tika作业=>tika语料库
3）在tika语料库上运行uima作业=>uima语料库
4）通过behemoth的corpusreader查看uima输出语料库，其中-a选项显示了您在/hadoop/conf中的behemoth-site.xml中定义的uima注解。
但问题是我不知道如何从庞然大物（uima）语料库中提取已建立的注解。
我还有cas consumer（在pear文件中），它应该在本地文件系统（不是在hdfs中）的文件中写入uima注解，但是我在文件系统中没有找到这个文件((

赞(0）回复(0）举报 2021-06-03

我来回答

用behemoth在hadoop上运行uima作业

2条答案

相关问题

热门标签

最新问答