hadoop—使用oozie在文件到达nfs时触发执行的最佳方法

falq053o  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(391)

以下1和2:不同类型的文件不时进入我的nfs目录。我想使用oozie或任何其他hdfs解决方案来触发文件到达事件,并根据其类型将文件复制到hdfs的特定位置。最好的方法是什么?

oxalkeyp

oxalkeyp1#

最好的方法是非常主观的术语。这在很大程度上取决于,什么样的数据,频率和什么样的事情应该发生,一旦数据到达特定的位置。
apacheflume可以监视特定文件夹的数据可用性,并按原样将其下推到hdfs之类的任何接收器。flume很适合流式传输数据,但它只做一项特定的工作——将数据从一个地方移动到另一个地方。
但另一方面,查一下oozie。协调器具有数据可用性触发器,使用oozie,您可以在数据到达后使用spark、hive、pig等工具执行各种etl操作,并使用shell操作将其下推到hdfs。你可以安排作业在特定的时间,频率运行或让作业发送电子邮件给你,如果出了什么问题。。。

相关问题