并行处理—spark如何将计算转移到hbase中的数据？

koaltpgm 于 2021-06-09 发布在 Hbase

关注(0)|答案(0)|浏览(250)

我确实成功地从 Hbase 至 Spark 以前。然而，我发现了一个问题，即计算没有移动到spark中的数据。例如，我有10个区域，其中有5个物理节点中的数据，我想用 Spark-2.4.0 奇怪的是，只有3个节点的集群启动任务。我的集群怎么了？
我配置了一些条件：
集群共有5个物理节点运行 Hadoop , HBase , Zookeeper 以及 Spark .
我确信数据平均存储在5个节点的10个区域中。换句话说，如果我想访问数据1到10，将调用regionserver1到regionserver10。

我正在使用“newapihadooprdd”从 HBase ，api根本不包含分区配置，因此默认线程的计数 Executors 可以发射是数 HRegions .

结果表明，集群中只有3个节点启动了10个任务。我希望所有5个节点都启动任务，每个节点应该启动2个任务。我已经意识到 Hbase 基于 HDFS ，但是我不知道那个api“newapihadooprdd”，所以我也想知道它是如何工作的。