map-reduce在cassandra集群上使用hive

ddrv8njm  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(297)

嗨,我正在使用datastax enterprise进行hadoop和cassandra集成。我已经配置了3个cassandra节点和2个analytics节点(配置单元将在其上运行)。
所以我很困惑,如果有一些数据不在配置单元节点上,但在cassandra节点上,它不会在map reduce期间被处理,或者map reduce会从cassandra节点提取数据并运行map reduce。请帮忙
所以我有4台机器(复制因子3)

machine 1) cassandra node|token value=0         |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5  |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)

他们不应该各占25%吗?我现在认为数据将在所有节点中复制,而不仅仅是在3个节点中

enxuqcxy

enxuqcxy1#

dse将确保将数据集的完整副本复制到指定为分析的节点集。所以这通常不是问题。如果有足够多的分析节点失败,它可能必须转到非分析节点来获取数据。。。但最好还是让分析节点重新上线。

相关问题