我正在使用catalog方法从hbase读取数据并将其存储到dataframe中,方法如下:使用spark读取hbase table with where子句,但我想知道是否还有其他有效的方法来解决此问题:
扫描hbase表
扫描hbase表\u b(Map表)
检查表\u b中是否存在列\u 1值,如果是,则从Map表中获取父\u id
如果不是,则检查表\u b中的列\u 2,如果是,则从Map表中获取父\u id
将结果保存到文件中。
我可以使用上面的方法来实现这一点,但是因为我使用的是像下面这样的连接,所以从连接b中选择*,其中(如果a.duns为null,那么a.ig else a.duns end)=b.rowkey
这需要永远
请帮忙
1条答案
按热度按时间9fkzdhlc1#