我们每天都有来自ftp站点的csv文件。我们需要做的是将当前csv中的新行添加到hdfs目录中当前存在的文件中。我们目前的流程是:
get sftp处理器从站点获取文件
update属性根据文件名创建hdfs文件夹
更新属性还会根据年份创建子文件夹
然后将文件转储到hdfs子文件夹中
总共大约有8个单独的目录,即“sales\u report”、“inventory”、“Personal”等。对于每个文件夹,我们希望将其中的csv文件附加到其中,而不是每天都有一个新的单独文件。
最好的办法是什么?我知道我将需要一个csv读写器服务,但我不知道该使用哪种处理器以及我将需要什么类型的nifi表达式(如果有的话)。如有任何详细答复,将不胜感激。
另外,从技术上讲,只要结果文件的格式是hive可以识别的,它就不需要是csv。
1条答案
按热度按时间toiithl61#
puthdfs处理器具有用于冲突解决的属性,该属性带有append选项。
附加到现有文件(如果有),否则创建新文件