使用scala将此spark流Dataframe发送到hbase

owfi6suc  于 2021-06-08  发布在  Kafka
关注(0)|答案(1)|浏览(417)

我正在spark streaming中接收kafka并处理我的数据以创建如下所示的Dataframe:

+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
|id |sen                      |attributes                                                                                                                                                    |
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
|1  |Stanford is good college.|[[Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.], [Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.]]|
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+

我有hbase表“kafkastreaming”,其中包含id和att列。我希望将此数据保存在hbase中,其中“id”作为行键和属性,例如att中的[[stanford,organization,nnp],[is,o,vbz],[good,o,jj]]。
每当出现此数据时,我都希望动态添加列族。请帮忙。

zu0ti5jz

zu0ti5jz1#

我们在拼接机上有这样的示例代码
如果要尝试写入低级位,可以动态创建hbase put,并通过函数调用或outputformat运行它们。put语法允许任意多个列族。
在这种方法下,失败语义往往不是那么热门。如何回滚失败等?

相关问题