并行处理—spark如何将计算转移到hbase中的数据?

koaltpgm  于 2021-06-09  发布在  Hbase
关注(0)|答案(0)|浏览(250)

我确实成功地从 HbaseSpark 以前。然而,我发现了一个问题,即计算没有移动到spark中的数据。例如,我有10个区域,其中有5个物理节点中的数据,我想用 Spark-2.4.0 奇怪的是,只有3个节点的集群启动任务。我的集群怎么了?
我配置了一些条件:
集群共有5个物理节点运行 Hadoop , HBase , Zookeeper 以及 Spark .
我确信数据平均存储在5个节点的10个区域中。换句话说,如果我想访问数据1到10,将调用regionserver1到regionserver10。

我正在使用“newapihadooprdd”从 HBase ,api根本不包含分区配置,因此默认线程的计数 Executors 可以发射是数 HRegions .

结果表明,集群中只有3个节点启动了10个任务。我希望所有5个节点都启动任务,每个节点应该启动2个任务。我已经意识到 Hbase 基于 HDFS ,但是我不知道那个api“newapihadooprdd”,所以我也想知道它是如何工作的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题