spark 2.0应该使用哪个hbase连接器?

kpbwa7wx  于 2021-06-10  发布在  Hbase
关注(0)|答案(2)|浏览(619)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。

上个月关门了。
改进这个问题
我们的堆栈是由googledataproc(spark2.0)和googlebigtable(hbase 1.2.0)组成的,我正在寻找一个与这些版本一起工作的连接器。
spark 2.0和新的dataset api支持对于我找到的连接器来说并不清楚:
Sparkhbase:https://github.com/apache/hbase/tree/master/hbase-spark
spark hbase连接器:https://github.com/nerdammer/spark-hbase-connector
hortonworks spark/shc公司:https://github.com/hortonworks-spark/shc
这个项目是用scala2.11和sbt编写的。
谢谢你的帮助

c9x0cxw0

c9x0cxw01#

除上述答案外,使用 newAPIHadoopRDD 也就是说,你从hbase获得了所有的数据,从那时起,它的核心就是spark。您不会得到任何特定于hbase的api,如过滤器等。而当前的spark hbase只有快照可用。

webghufk

webghufk2#

更新:shc现在似乎与spark2和表api一起工作。看到了吗https://github.com/googlecloudplatform/cloud-bigtable-examples/tree/master/scala/bigtable-shc
原始答案:
我不相信这些(或任何其他现有的连接器)将做所有你想今天。
spark hbase在发布时可能是正确的解决方案(hbase 1.4?),但目前仅在head上构建,并且仍在努力支持spark 2。
spark hbase连接器似乎只支持RDDAPI,但由于它们更稳定,所以可能会有所帮助。
hortonworks spark/shc可能不起作用,因为我相信它只支持spark1,并且使用了不适用于bigtable的旧htable api。
我建议只使用hbase mapreduce api和rdd方法,比如newapihadooprdd(或者spark hbase connector?)。然后手动将RDD转换为数据集。这种方法在scala或java中比python容易得多。
这是hbase社区正在努力改进的一个领域,googleclouddataproc将在这些改进发生时纳入其中。

相关问题