在没有pheonix的情况下,通过hbase数据获得Dataframe抽象的最佳方法是什么

qv7cva1a  于 2021-06-10  发布在  Hbase
关注(0)|答案(1)|浏览(359)

我想从spark保存和读取hbase中的数据。
我想得到Dataframe的抽象,因为与rdd相比,Dataframe最适合于内存管理,并且可以方便地进行任何处理。
我研究了获取Dataframe抽象的可能候选对象。其中之一是基于Phoenix城的解决方案。我不想有pheonix层上的hbase由于批准。我寻找其他的解决办法,但想知道有人尝试过的最佳可能性。

o4hqfura

o4hqfura1#

我们有一个性能在拼接机(开源)。我们为hbase编写了一个单独的inputformat,这样我们可以直接从hbase中的存储文件读取,而不是执行远程扫描。hbase之上spark性能的杀手锏是基于远程扫描的inputformat(即如何读取数据)。
cloudera的肖恩·布斯贝(sean busbey)曾开发过spark hbase连接器,这里是hortonworks的一个博客,内容与此类似。。。
http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/
“连接器”在功能上起作用,但对于大型数据集的性能较差。
希望这对你有帮助,祝你好运。

相关问题