使用spark datastax connector忽略具有Dataframe的空值

41ik7eoe  于 2021-06-14  发布在  Cassandra
关注(0)|答案(1)|浏览(377)

我们有一个超过50列的cassandra模式,通过使用spark(Dataframe而不是rdd)转换数据,我们正在将来自多个数据源的数据插入其中。
由于数据稀少,我们遇到了许多墓碑的问题。
已经试过了 spark.cassandra.output.ignoreNulls=true 但它不起作用。在cassandra中不写空值的正确配置是什么?
我正在使用齐柏林飞艇运行我的spark代码并将数据推送到c*

rwqw0loc

rwqw0loc1#

找到了解决办法:
文档中有提示:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md 低于 Setting Connector Specific Options on Datasets 主题。
确切的代码如下所示:

transformedData.write.format("org.apache.spark.sql.cassandra").option("header","false").option("spark.cassandra.output.ignoreNulls", true).mode("append").options(Map( "table" -> table_name, "keyspace" -> keyspace_name)).save()

相关问题