嗨,我正在使用datastax enterprise进行hadoop和cassandra集成。我已经配置了3个cassandra节点和2个analytics节点(配置单元将在其上运行)。
所以我很困惑,如果有一些数据不在配置单元节点上,但在cassandra节点上,它不会在map reduce期间被处理,或者map reduce会从cassandra节点提取数据并运行map reduce。请帮忙
所以我有4台机器(复制因子3)
machine 1) cassandra node|token value=0 |data owned(25%)
machine 2)-cassandra node|token value=2^127*.5 |data owned(33%)
machine 3)-analytics node|token value=2^127*.25 |data owned(33%)
machine 4) analytics node|token value=2^127*.75 |data owned(8%)
他们不应该各占25%吗?我现在认为数据将在所有节点中复制,而不仅仅是在3个节点中
1条答案
按热度按时间enxuqcxy1#
dse将确保将数据集的完整副本复制到指定为分析的节点集。所以这通常不是问题。如果有足够多的分析节点失败,它可能必须转到非分析节点来获取数据。。。但最好还是让分析节点重新上线。