数据库—从hdfs将大型csv(200+gb)数据加载到teradata的最佳方法？

mwyxok5s 于 2021-05-27 发布在 Hadoop

关注(0)|答案(0)|浏览(254)

问题很简单，正在寻找一种安全、最佳地将非常大的csv数据（>200gb）加载到teradatadb的方法。由于存储限制，我们将数据文件保存在hdfs中，需要将其加载到teradata表中。将csv切碎或拆分为更小的csv是可能的，但可能会考虑将其作为最后手段，在这种情况下，任何选项都将起作用。
可能的解决方案tried:-

1. Sqoop export: Failing due to resources despite pushing maximum number of mappers.
 2. Nifi flow: getHDFS > SplitText > SplitText..... > CSVtoAvro > PutDatabaseRecord.

但处理器似乎挂起由于内存问题，我觉得。
是否需要某种方法将文件分割成更小的文件，并将250000批文件插入td？
任何帮助都将不胜感激。

hadoop apache-spark Database apache-nifi unix

来源：https://stackoverflow.com/questions/58824431/best-way-to-load-large-csv-200-gb-data-to-teradata-from-hdfs

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

数据库—从hdfs将大型csv(200+gb)数据加载到teradata的最佳方法？

暂无答案！

相关问题

热门标签

最新问答