我试图在现有的hbase表上创建sparkDataframe(hbase通过kerberos进行保护)。我需要对这个表执行一些sparksql操作。我曾尝试在hbase表上创建rdd,但无法将其转换为Dataframe。
pkln4tw61#
您可以使用hbase存储处理程序创建配置单元外部表,然后使用该表运行spark sql查询。创建配置单元外部表:
CREATE TABLE foo(rowkey STRING, a STRING, b STRING) STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler’ WITH SERDEPROPERTIES (‘hbase.columns.mapping’ = ‘:key,f:c1,f:c2’) TBLPROPERTIES (‘hbase.table.name’ = ‘bar’);
spark sql:val df=spark.sql(“从foo where中选择*”)注意:这里spark是一个sparksession
1条答案
按热度按时间pkln4tw61#
您可以使用hbase存储处理程序创建配置单元外部表,然后使用该表运行spark sql查询。
创建配置单元外部表:
spark sql:val df=spark.sql(“从foo where中选择*”)
注意:这里spark是一个sparksession