使用scala将此spark流Dataframe发送到hbase

owfi6suc 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(417)

我正在spark streaming中接收kafka并处理我的数据以创建如下所示的Dataframe：

+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
|id |sen                      |attributes                                                                                                                                                    |
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
|1  |Stanford is good college.|[[Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.], [Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.]]|
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+

我有hbase表“kafkastreaming”，其中包含id和att列。我希望将此数据保存在hbase中，其中“id”作为行键和属性，例如att中的[[stanford，organization，nnp]，[is，o，vbz]，[good，o，jj]]。
每当出现此数据时，我都希望动态添加列族。请帮忙。

hbase scala apache-kafka spark-streaming

来源：https://stackoverflow.com/questions/38864699/send-this-spark-streaming-dataframe-to-hbase-using-scala