如果在hadoop系统中,一个系统的输入依赖于另一个系统的输出,则无法实现并行计算。有办法解决这个问题吗?请提供详细的解决方案或任何资源链接。
xienkqul1#
这个问题有点模糊,但幸运的是有一个通用的答案。如果不能在一个map reduce阶段中完成所有操作(例如,由于依赖关系),则可以在多个阶段中完成。一个简单的例子是:Map缩小Map缩小当然这也有局限性,如果2号线的所有处理都依赖于1号线的最终处理,那么1号线和2号线的并行处理基本上是不可能的。
1条答案
按热度按时间xienkqul1#
这个问题有点模糊,但幸运的是有一个通用的答案。
如果不能在一个map reduce阶段中完成所有操作(例如,由于依赖关系),则可以在多个阶段中完成。
一个简单的例子是:
Map缩小Map缩小
当然这也有局限性,如果2号线的所有处理都依赖于1号线的最终处理,那么1号线和2号线的并行处理基本上是不可能的。