对于bi和hadoop来说,处理json活动流的合适工具是什么?

h6my8fg2  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(341)

我有许多系统,其中大多数都能够使用json活动流生成数据[1](或者可以强制生成),我希望使用这些数据进行分析。
我想使用传统的sql数据集市来进行olap操作,还想将原始json数据转储到hadoop中以运行批处理mapreduce作业。
我一直在读Kafka,Flume,抄写,s4,风暴和一大堆其他工具,但我仍然不知道哪一个最适合手头的任务。这些看起来要么集中在日志文件数据上,要么集中在活动流的实时处理上,而我想我更感兴趣的是在活动流上进行etl。
我考虑的设置类型是为我感兴趣的所有流(url、params、credentials)提供一个配置,该工具定期轮询它们,将输出转储到hdfs中,还为我提供了一个钩子来处理和转换json以插入datamart。
现有的开源工具是否特别适合这种情况?
(就规模而言,我预计最多有30000个用户与10个系统交互——不是同时交互——因此不是真正的“大数据”,但也不是微不足道的)
谢谢!
[1] http://activitystrea.ms/

guykilcj

guykilcj1#

你应该去streamset.com看看
它是一个开源工具(并且可以免费使用),完全是为这些类型的用例而构建的。
您可以使用http客户机源和hdfs目标来实现您的主要目标。如果您决定也需要使用kafka或flume,那么对这两种语言的支持也是内置的。
您还可以通过多种方式进行转换,包括编写python或javascript来实现更复杂的转换(或者您可以选择自己的java阶段)。
您还可以查看logstash(elastic.co)和nifi,看看其中一个是否对您更合适。

  • 完全公开,我是streamset的工程师。

相关问题