我正在考虑如何使用hbase columnrangefilter by spark。
我查看了org.apache.hadoop.hbase.mapreduce.tableinputformat,但是这个api不包含columnrangefilter。
所以我不知道怎么用Spark过滤。
例如,我想使用以“20170225”开头并以“20170305”结尾的columnrangefilter。
我可以像在代码下面一样扫描行。
val conf = HBaseConfiguration.create()
conf.set(TableInputFormat.INPUT_TABLE, "like_count")
val startRow = "001"
val endRow = "100"
conf.set(TableInputFormat.SCAN_ROW_START, startRow)
conf.set(TableInputFormat.SCAN_ROW_STOP, endRow)
sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result])
我需要添加什么代码?如果有人有什么建议,请告诉我。
1条答案
按热度按时间h7wcgrx31#
使用scan对象设置起始行和结束行,并在hbase配置中设置该扫描对象,然后将该配置对象传递给tableinputformathttps://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/scan.html