有人能帮我理解这些东西吗?我很清楚,当我运行一个sqoop脚本时,默认的Map器是4,并且它是并行运行的。因此,sqoop基于主键创建了4组sql脚本,生成了4个数据块。
我不明白的是这些Map程序是否在所有节点上运行?因为如果每个Map器在每个节点上运行,那么在所有节点带宽都可用的情况下,下载速度会快得多。
或者,所有4个Map器都保持在同一个节点上,这样并行效果将只在cpu(超线程的东西)上,而不是在带宽上,因此只有在每个Map器不消耗最大带宽的情况下才能提高下载速度(一点)。
我真的很困惑。任何意见都将不胜感激。据我所知,没有人问过这个问题。
暂无答案!
目前还没有任何答案,快来回答吧!