hadoop——在大数据平台上“近实时”从新闻web api中提取数据的最佳方式

brgchamk  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(279)

我有一个用例,第一步是将来自新闻api或新闻聚合器api的数据摄取到hdfs中。此数据获取将在nrt基础上完成(例如每15分钟一次),目前我正在研究两种方法:
基于python的解决方案。
基于apachenifi的框架(但nifi在hortonworks以外的其他发行版上似乎存在一些兼容性问题)
对于一种独立于平台、可以跨不同hadoop发行版(cloudera、hw等)使用的方法,如果没有更多的建议,那就太好了。
谢谢。

3okqufwl

3okqufwl1#

apachenifi绝对可以处理您的进程,而且它在windows、macos和大多数linux发行版上运行良好(我在ubuntu、redhat、centos、amazonlinux和raspbian上运行过)。它不需要hadoop,但可以与hortonworks或clouderahadoop发行版一起使用。
我用nifi构建了一个rss查看器,它使用gethttp->transformxml->putfile获取、提取rss并将其保存到磁盘。然后nifi监听浏览器请求,并使用handlehttprequest->getfile->transformxml->handlehttpresponse将rss作为html表返回。

相关问题