如何每天从teradata服务器复制大文件(200-500gb)到hdfs

rsl1atfo  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(316)

我在服务器a上有teradata文件,需要将其复制到服务器b的hdfs中。我有什么选择?distcp之所以被裁定是因为teradata不在hdfs上scp对于大文件是不可行的flume和kafka用于流而不是文件移动。即使我用spool\u dir使用flume,这也会是一种过度杀戮。
我能想到的唯一选择就是nifi。有人对如何使用nifi有什么建议吗?或者如果有人已经经历过这种情况,那么接下来的方法是什么?

e7arh2l6

e7arh2l61#

我没有在nifi中专门使用teradata数据流,但是在nifi中使用过其他sql源,我相信开发将teradata数据摄取到hdfs的数据流是可能的&非常直接。
首先,你可以做一个快速检查 ExecuteSQL nifi提供的处理器。与sql相关的处理器需要一个 DBCPConnectionPool 属性,该属性是nifi控制器服务,应该使用teradata服务器的jdbc url以及驱动程序路径和驱动程序类名进行配置。一旦确认连接正常,就可以查看 GenerateTableFetch / QueryDatabaseTable hortonworks有一篇关于配置的文章 DBCPConnectionPool 对于teradata服务器:https://community.hortonworks.com/articles/45427/using-teradata-jdbc-connector-in-nifi.html

相关问题