我想使用hadoop来处理每n分钟生成一次的输入文件。我应该如何处理这个问题?例如,我每10分钟收到一次美国城市的温度测量,我想计算每周和每月每天的平均温度。ps:到目前为止,我已经考虑使用ApacheFlume来获取读数。它将从多个服务器获取数据,并定期将数据写入hdfs。从那里我可以阅读和处理它们。但我如何才能避免一次又一次地处理相同的文件呢?
wvt8vs2t1#
您应该考虑像storm这样的大数据流处理平台(虽然我非常熟悉,但还有其他平台),它可能更适合您提到的聚合和度量类型。但是,不管哪种方法,您都要实现一种方法,它以一种非常容易应用刚刚收集的数据的增量的形式来提供最新的度量。此合并的另一个输出是一组新的数据,您将应用下一小时的数据。等等。
1条答案
按热度按时间wvt8vs2t1#
您应该考虑像storm这样的大数据流处理平台(虽然我非常熟悉,但还有其他平台),它可能更适合您提到的聚合和度量类型。
但是,不管哪种方法,您都要实现一种方法,它以一种非常容易应用刚刚收集的数据的增量的形式来提供最新的度量。此合并的另一个输出是一组新的数据,您将应用下一小时的数据。等等。