我的任务是创建一个基本的etl应用程序。我们有一个远程位置,每个月都会将csv文件放到其中,它们的大小约为250mbs。
应用程序将csv-->应用业务逻辑(如果需要)-->插入到sqlserver表中。
我一直在考虑用Kafka来做这个。不过,我是一个相当新的它,无法找到一个连接器,将读取一个csv文件导入Kafka。我在github中看到过一些项目,但它们似乎是过时的,而且我在董事会上因为不支持操作异常而收到错误
有人能指出正确的方向吗?我现在正在考虑用合流Kafka写一个连接器
我的任务是创建一个基本的etl应用程序。我们有一个远程位置,每个月都会将csv文件放到其中,它们的大小约为250mbs。
应用程序将csv-->应用业务逻辑(如果需要)-->插入到sqlserver表中。
我一直在考虑用Kafka来做这个。不过,我是一个相当新的它,无法找到一个连接器,将读取一个csv文件导入Kafka。我在github中看到过一些项目,但它们似乎是过时的,而且我在董事会上因为不支持操作异常而收到错误
有人能指出正确的方向吗?我现在正在考虑用合流Kafka写一个连接器
1条答案
按热度按时间xt0899hw1#
如果您想使用kafka(从您的需求中还不清楚您是否需要),那么kafka connect spooldir是满足您的需求的一个很好的连接器。本文展示了它的设置和使用示例。
免责声明:我为confluent工作,我写了一篇文章:)