我确实成功地从 Hbase
至 Spark
以前。然而,我发现了一个问题,即计算没有移动到spark中的数据。例如,我有10个区域,其中有5个物理节点中的数据,我想用 Spark-2.4.0
奇怪的是,只有3个节点的集群启动任务。我的集群怎么了?
我配置了一些条件:
集群共有5个物理节点运行 Hadoop
, HBase
, Zookeeper
以及 Spark
.
我确信数据平均存储在5个节点的10个区域中。换句话说,如果我想访问数据1到10,将调用regionserver1到regionserver10。
我正在使用“newapihadooprdd”从 HBase
,api根本不包含分区配置,因此默认线程的计数 Executors
可以发射是数 HRegions
.
结果表明,集群中只有3个节点启动了10个任务。我希望所有5个节点都启动任务,每个节点应该启动2个任务。我已经意识到 Hbase
基于 HDFS
,但是我不知道那个api“newapihadooprdd”,所以我也想知道它是如何工作的。
暂无答案!
目前还没有任何答案,快来回答吧!