我有两个hbase表' hbaseTable
', ' hbaseTable1
'和配置单元表' hiveTable
'我的查询看起来像:
'insert overwrite hiveTable select col1, h2.col2, col3 from hbaseTable h1,hbaseTable2 h2 where h1.col=h2.col2';
我需要在hbase中进行内部连接并将数据带到配置单元。我们使用的是hive和java,它的性能非常差。所以计划用spark改变方法。i、 e,spark with java如何使用spark从java代码连接到hbase。
现在,我的spark代码应该在hbase中执行一个连接,并通过上面的查询将数据引入hive。
请提供样本代码。
1条答案
按热度按时间az31mfrm1#
如果您使用spark加载hbase数据,那么为什么要在配置单元中加载它呢?您可以使用类似于hive的sparksql,从而使用sql。您完全可以不使用配置单元来查询数据。例如:
如果出于某些原因需要使用配置单元,请使用hivecontext从配置单元读取数据,并使用saveastable持久化数据。如果有疑问,请告诉我。