此数据管道的最佳方法?

icnyk63a  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(343)

我需要使用nifi设计一个管道,但是我有一些问题,因为我正在考虑两种方法,我不确定使用哪个处理器,所以也许你可以帮助我。
场景如下:我需要将一些.csv文件摄取到我的hdfs中,这些文件不包含我要用来划分稍后使用的配置单元表的日期,因此我想到了两个选项:
在.csv处理过程中的某个时刻,创建某种从nifi启动的代码段来修改.csv文件,添加带有日期的列。
在配置单元上创建一个临时(内部?)表,更改表并添加列,最后将其添加到按日期分区的表中。
我不确定哪个选项更好(内存、简单性、资源管理),或者它是否可能,或者是否有更好的方法。我也不确定使用哪种nifi处理器。
所以任何帮助都很感激,谢谢。

qgzx9mmu

qgzx9mmu1#

您应该能够在nifi中轻松地执行#1,而无需编写任何代码:)
步骤如下:
从某处获取csv的源处理器,可能是getfile
updateattribute为当前日期添加属性
使用csvreader和csvwriter更新记录,添加一个新的日期字段,其值来自#2
我已经创建了一个示例来说明如何做到这一点,并在这里发布了模板:
https://gist.githubusercontent.com/bbende/113f8fa44250c09a5282d04ee600cd09/raw/c6fe8b1b9f31bb106f9c816e4fd5ea90ebe19f80/csvadddate.xml
保存xml文件并使用nifi画布左侧的调色板将其作为模板上载。然后通过拖动模板图标从顶部工具栏示例化模板。

相关问题