mapreduce—如果一个系统的输入依赖于另一个系统的输出,那么hadoop中会发生什么?

p5cysglq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(369)

如果在hadoop系统中,一个系统的输入依赖于另一个系统的输出,则无法实现并行计算。
有办法解决这个问题吗?请提供详细的解决方案或任何资源链接。

xienkqul

xienkqul1#

这个问题有点模糊,但幸运的是有一个通用的答案。
如果不能在一个map reduce阶段中完成所有操作(例如,由于依赖关系),则可以在多个阶段中完成。
一个简单的例子是:
Map缩小Map缩小
当然这也有局限性,如果2号线的所有处理都依赖于1号线的最终处理,那么1号线和2号线的并行处理基本上是不可能的。

相关问题