我使用spark-sql-2.4.1v,Kafka和Cassandra。我有一个场景,我会得到不同的跨国数据,其中可能包括更新记录。。。我需要用添加的字段值更新先前收到的记录。这可以通过Spark流来实现,卡法和Cassandra。如果是的话,我该怎么办?有什么线索吗。如果没有,我还需要在我的技术堆栈中添加什么?谢谢。
uplii1fm1#
只需通过spark cassandra连接器写入数据,如文档中所述(对于RDD,对于dataframes)-此操作将更新现有数据或插入新数据。根据所选的api,您可能需要将连接器配置为将数据附加到表中,而不是每次都完全覆盖。
1条答案
按热度按时间uplii1fm1#
只需通过spark cassandra连接器写入数据,如文档中所述(对于RDD,对于dataframes)-此操作将更新现有数据或插入新数据。根据所选的api,您可能需要将连接器配置为将数据附加到表中,而不是每次都完全覆盖。