spark 2.0应该使用哪个hbase连接器？

kpbwa7wx 于 2021-06-10 发布在 Hbase

关注(0)|答案(2)|浏览(618)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

上个月关门了。
改进这个问题
我们的堆栈是由googledataproc（spark2.0）和googlebigtable（hbase 1.2.0）组成的，我正在寻找一个与这些版本一起工作的连接器。
spark 2.0和新的dataset api支持对于我找到的连接器来说并不清楚：
Sparkhbase：https://github.com/apache/hbase/tree/master/hbase-spark
spark hbase连接器：https://github.com/nerdammer/spark-hbase-connector
hortonworks spark/shc公司：https://github.com/hortonworks-spark/shc
这个项目是用scala2.11和sbt编写的。
谢谢你的帮助

hbase scala apache-spark google-cloud-bigtable google-cloud-dataproc

来源：https://stackoverflow.com/questions/40908891/which-hbase-connector-for-spark-2-0-should-i-use

2条答案

按热度按时间

c9x0cxw01#

除上述答案外，使用 newAPIHadoopRDD 也就是说，你从hbase获得了所有的数据，从那时起，它的核心就是spark。您不会得到任何特定于hbase的api，如过滤器等。而当前的spark hbase只有快照可用。

赞(0）回复(0）举报 2021-06-10

webghufk2#

更新：shc现在似乎与spark2和表api一起工作。看到了吗https://github.com/googlecloudplatform/cloud-bigtable-examples/tree/master/scala/bigtable-shc
原始答案：
我不相信这些（或任何其他现有的连接器）将做所有你想今天。
spark hbase在发布时可能是正确的解决方案（hbase 1.4？），但目前仅在head上构建，并且仍在努力支持spark 2。
spark hbase连接器似乎只支持RDDAPI，但由于它们更稳定，所以可能会有所帮助。
hortonworks spark/shc可能不起作用，因为我相信它只支持spark1，并且使用了不适用于bigtable的旧htable api。
我建议只使用hbase mapreduce api和rdd方法，比如newapihadooprdd（或者spark hbase connector？）。然后手动将RDD转换为数据集。这种方法在scala或java中比python容易得多。
这是hbase社区正在努力改进的一个领域，googleclouddataproc将在这些改进发生时纳入其中。

赞(0）回复(0）举报 2021-06-10

我来回答

spark 2.0应该使用哪个hbase连接器？

2条答案

相关问题

热门标签

最新问答