我有一个nifi流,它从mqtt代理获取json中的事件,根据一些标准对它们进行分组,将它们转换为avro行,并通过hadoop集群中的文件输出它们。
我选择avro作为存储格式,因为它能够将新数据附加到现有文件中。
这些事件是按源分组的,理想情况下,我应该在hdfs中为每个事件源设置一个单独的avro文件,因此nifi会在每个文件中累积新的事件(当然,使用适当的写批处理,因为为每个新事件发出写操作不是很好,我已经用mergecontent处理器解决了这个问题)。
我已经计算出了流程,但是我发现最后一步,puthdfs处理器,是文件格式无关的,也就是说,它不知道如何附加到现有的avro文件。
我发现这个pull请求正好实现了这一点,但是由于各种原因,它从未被合并到nifi中。
有没有办法用现有的nifi处理器做到这一点?或者我必须推出我的自定义puthdfs处理器,它能够理解如何附加到现有的avro文件?
暂无答案!
目前还没有任何答案,快来回答吧!