使用hortonworks spark hbase连接器读取和写入我的hbase表。
在读取过程中,根据下面的代码片段,230万条记录的读取时间为4分钟。我使用rowkey作为筛选记录的主列。
记录总数约为350万条。
我们正在使用一个3节点群集| 3个区域服务器| 11个区域作为3个区域服务器。
val catalog = getUDMHistoryTableCatalog()
val HistoryHBaseDF = sqlContext.read
.options(Map(HBaseTableCatalog.tableCatalog -> catalog))
.format("org.apache.spark.sql.execution.datasources.hbase")
.load().filter(substring(col("key"),0,4) === "017-")
暂无答案!
目前还没有任何答案,快来回答吧!