我在hbase表中有一些数据(几十亿)。我必须处理它们来给存储的文档打分。在mapreduce范式中,有哪些可能实现和应用的算法。我曾尝试部署minmax算法,但由于它的要求,所有数据在reducer阶段都转移到单个节点(以找到最小值和最大值)。由于这个原因,读取gc开销限制是意料之中的,因为单个节点不可能有这么多内存来一次性处理所有数据。在mapreduce范例中,hbase文档排名(评分)还有其他选项吗?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!