需要通过python或ruby代码将.csv文件导入Cassandra 3.11.3 DB的代码(生产使用)

siv3szwd  于 2022-11-05  发布在  Cassandra
关注(0)|答案(1)|浏览(112)

我们有7个节点的Cassandra 3.11.3生产集群,我们将票据详细信息转储到中间服务器,我需要读取此.csv文件并将.csv数据导入到cassandra表。我尝试了Ruby代码,它对我来说很容易编写,但它无法处理所有列值(因为此.csv将有特殊字符、回车/不同行、UTF问题、太多文本描述,因为它在票务工具中),因为. csv中的每一行数据都在变化。
我想知道ruby或python是否适合在生产环境中执行此活动,或者是否有人有很好的示例代码来缓解上述问题并在生产环境中执行此类活动?

gwbalxhn

gwbalxhn1#

Ruby和Python都非常适合这类任务,但是如果源文件格式不正确,那么任何可能的工具都可能失败--没有一个神奇的按钮工具可以从(损坏的)数据文件中推断出上下文,并自动修复所有问题。
我建议将任务分成两部分:1)修复编码和数据质量问题(并在必要时执行任何数据转换),然后2)导入干净的数据。
任务2可以很容易地用几乎任何编程语言完成(有合适的cassandra驱动程序可用),但如果你有一个格式良好的csv源代码,你可能根本不需要任何黑客攻击(当然,取决于用例)- Cassandra支持copy ... from命令,允许直接从csv导入数据(https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html)。

相关问题