我正在尝试设计一个基于uima的分布式可伸缩管道。我应该如何决定在hadoop上使用uima ducc或uima?如果我在uimaducc而不是hadoop上构建它,我会错过什么呢?
wb1gzix01#
一个维度是应用特性。hadoop对于i/o密集型应用程序将有很大的优势。对于需要在不同线程中运行多个管道拷贝以实现高cpu利用率的大型内存应用程序,ducc应该有很大的优势。另一个方面是利用uima而不是利用hadoop。ducc建立在基本uima功能的基础上,提供了许多扩展选项、内置性能指标和调试支持,所有这些都基于核心uima组件。uima管道越复杂,ducc的优势越大;例如,复杂的处理流可以直接在ducc中实现,但很可能必须转换为map reduce。对于那些拥有足够hadoop专业知识的人来说,一个相对简单的uima分析可以很容易地集成到现有的hadoop商店中,而不必对uima了解太多。
niwlg2el2#
你可以查看这个链接https://uima.apache.org/doc-uimaducc-whatitam.html在这一页的底部,你会发现不同之处。
2条答案
按热度按时间wb1gzix01#
一个维度是应用特性。hadoop对于i/o密集型应用程序将有很大的优势。对于需要在不同线程中运行多个管道拷贝以实现高cpu利用率的大型内存应用程序,ducc应该有很大的优势。
另一个方面是利用uima而不是利用hadoop。ducc建立在基本uima功能的基础上,提供了许多扩展选项、内置性能指标和调试支持,所有这些都基于核心uima组件。uima管道越复杂,ducc的优势越大;例如,复杂的处理流可以直接在ducc中实现,但很可能必须转换为map reduce。
对于那些拥有足够hadoop专业知识的人来说,一个相对简单的uima分析可以很容易地集成到现有的hadoop商店中,而不必对uima了解太多。
niwlg2el2#
你可以查看这个链接
https://uima.apache.org/doc-uimaducc-whatitam.html
在这一页的底部,你会发现不同之处。