问题很简单,正在寻找一种安全、最佳地将非常大的csv数据(>200gb)加载到teradatadb的方法。由于存储限制,我们将数据文件保存在hdfs中,需要将其加载到teradata表中。将csv切碎或拆分为更小的csv是可能的,但可能会考虑将其作为最后手段,在这种情况下,任何选项都将起作用。
可能的解决方案tried:-
1. Sqoop export: Failing due to resources despite pushing maximum number of mappers.
2. Nifi flow: getHDFS > SplitText > SplitText..... > CSVtoAvro > PutDatabaseRecord.
但处理器似乎挂起由于内存问题,我觉得。
是否需要某种方法将文件分割成更小的文件,并将250000批文件插入td?
任何帮助都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!