我必须解析大约1gb的大型CSV,将头Map到数据库列,并格式化每一行。i、 e csv有“性别”男性,但我的数据库只接受 enum('M', 'F', 'U')
.
由于文件太大,我必须使用节点流,转换文件,然后使用 load data infile
一次上传。
我想对插入物进行精确控制 load data infile
不提供。如果一行有不正确的数据,整个上传就会失败。我目前正在使用mysqljs,它没有提供api来检查池是否已达到queuelimit,因此无法可靠地暂停流。
我想知道我是否可以使用apachekafka或spark来流式传输指令,它将被依次添加到数据库中。我浏览了这些文档并阅读了一些教程,但没有一个演示如何将它们连接到数据库。主要是消费者/生产者的例子。
我知道有多种方法可以解决这个问题,但我非常感兴趣的是一种无缝集成流与数据库的方法。如果流可以与i.o一起工作,为什么不使用数据库呢?我敢肯定大公司不会使用 load data infile
或者重复向数组中添加数据块并插入数据库。
暂无答案!
目前还没有任何答案,快来回答吧!