对于bi和hadoop来说，处理json活动流的合适工具是什么？

h6my8fg2 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(341)

我有许多系统，其中大多数都能够使用json活动流生成数据[1]（或者可以强制生成），我希望使用这些数据进行分析。
我想使用传统的sql数据集市来进行olap操作，还想将原始json数据转储到hadoop中以运行批处理mapreduce作业。
我一直在读Kafka，Flume，抄写，s4，风暴和一大堆其他工具，但我仍然不知道哪一个最适合手头的任务。这些看起来要么集中在日志文件数据上，要么集中在活动流的实时处理上，而我想我更感兴趣的是在活动流上进行etl。
我考虑的设置类型是为我感兴趣的所有流（url、params、credentials）提供一个配置，该工具定期轮询它们，将输出转储到hdfs中，还为我提供了一个钩子来处理和转换json以插入datamart。
现有的开源工具是否特别适合这种情况？
（就规模而言，我预计最多有30000个用户与10个系统交互——不是同时交互——因此不是真正的“大数据”，但也不是微不足道的）
谢谢！
[1] http://activitystrea.ms/

hadoop JSON etl Stream android-activity

来源：https://stackoverflow.com/questions/17444250/what-is-an-appropriate-tool-for-processing-json-activity-streams-for-both-bi-and

1条答案

按热度按时间

guykilcj1#

你应该去streamset.com看看
它是一个开源工具（并且可以免费使用），完全是为这些类型的用例而构建的。
您可以使用http客户机源和hdfs目标来实现您的主要目标。如果您决定也需要使用kafka或flume，那么对这两种语言的支持也是内置的。
您还可以通过多种方式进行转换，包括编写python或javascript来实现更复杂的转换（或者您可以选择自己的java阶段）。
您还可以查看logstash（elastic.co）和nifi，看看其中一个是否对您更合适。

完全公开，我是streamset的工程师。

赞(0）回复(0）举报 2021-06-04

我来回答

对于bi和hadoop来说，处理json活动流的合适工具是什么？

1条答案

相关问题

热门标签

最新问答