目前,据我所知,数据将从关系数据库被sqoop到hdfs中。从那里,pig或m/r可以运行etl相关的任务,并将转换后的数据放入hdfs的另一部分。如有必要,可以删除原始数据。有没有办法避免将原始数据导入hdfs,并在数据通过sqoop进入时对其运行pig和m/r?这是怎么做到的?
2g32fytz1#
sqoop/pig/hive/mr本质上是面向批处理(长时间)的,不能实时处理数据。考虑使用flume/storm/samza/s4这样的框架
1条答案
按热度按时间2g32fytz1#
sqoop/pig/hive/mr本质上是面向批处理(长时间)的,不能实时处理数据。考虑使用flume/storm/samza/s4这样的框架