hadoop上的uima ducc与uima

j9per5c4  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(484)

我正在尝试设计一个基于uima的分布式可伸缩管道。我应该如何决定在hadoop上使用uima ducc或uima?如果我在uimaducc而不是hadoop上构建它,我会错过什么呢?

wb1gzix0

wb1gzix01#

一个维度是应用特性。hadoop对于i/o密集型应用程序将有很大的优势。对于需要在不同线程中运行多个管道拷贝以实现高cpu利用率的大型内存应用程序,ducc应该有很大的优势。
另一个方面是利用uima而不是利用hadoop。ducc建立在基本uima功能的基础上,提供了许多扩展选项、内置性能指标和调试支持,所有这些都基于核心uima组件。uima管道越复杂,ducc的优势越大;例如,复杂的处理流可以直接在ducc中实现,但很可能必须转换为map reduce。
对于那些拥有足够hadoop专业知识的人来说,一个相对简单的uima分析可以很容易地集成到现有的hadoop商店中,而不必对uima了解太多。

niwlg2el

niwlg2el2#

你可以查看这个链接
https://uima.apache.org/doc-uimaducc-whatitam.html
在这一页的底部,你会发现不同之处。

相关问题