我有一个用例,第一步是将来自新闻api或新闻聚合器api的数据摄取到hdfs中。此数据获取将在nrt基础上完成(例如每15分钟一次),目前我正在研究两种方法:
基于python的解决方案。
基于apachenifi的框架(但nifi在hortonworks以外的其他发行版上似乎存在一些兼容性问题)
对于一种独立于平台、可以跨不同hadoop发行版(cloudera、hw等)使用的方法,如果没有更多的建议,那就太好了。
谢谢。
我有一个用例,第一步是将来自新闻api或新闻聚合器api的数据摄取到hdfs中。此数据获取将在nrt基础上完成(例如每15分钟一次),目前我正在研究两种方法:
基于python的解决方案。
基于apachenifi的框架(但nifi在hortonworks以外的其他发行版上似乎存在一些兼容性问题)
对于一种独立于平台、可以跨不同hadoop发行版(cloudera、hw等)使用的方法,如果没有更多的建议,那就太好了。
谢谢。
1条答案
按热度按时间3okqufwl1#
apachenifi绝对可以处理您的进程,而且它在windows、macos和大多数linux发行版上运行良好(我在ubuntu、redhat、centos、amazonlinux和raspbian上运行过)。它不需要hadoop,但可以与hortonworks或clouderahadoop发行版一起使用。
我用nifi构建了一个rss查看器,它使用gethttp->transformxml->putfile获取、提取rss并将其保存到磁盘。然后nifi监听浏览器请求,并使用handlehttprequest->getfile->transformxml->handlehttpresponse将rss作为html表返回。