我正在spark streaming中接收kafka并处理我的数据以创建如下所示的Dataframe:
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
|id |sen |attributes |
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
|1 |Stanford is good college.|[[Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.], [Stanford,ORGANIZATION,NNP], [is,O,VBZ], [good,O,JJ], [college,O,NN], [.,O,.]]|
+---+-------------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------+
我有hbase表“kafkastreaming”,其中包含id和att列。我希望将此数据保存在hbase中,其中“id”作为行键和属性,例如att中的[[stanford,organization,nnp],[is,o,vbz],[good,o,jj]]。
每当出现此数据时,我都希望动态添加列族。请帮忙。
1条答案
按热度按时间zu0ti5jz1#
我们在拼接机上有这样的示例代码
如果要尝试写入低级位,可以动态创建hbase put,并通过函数调用或outputformat运行它们。put语法允许任意多个列族。
在这种方法下,失败语义往往不是那么热门。如何回滚失败等?