我正在创建一个hive输出表,它大约有40亿行。我没有把它分开。每次执行作业时,我注意到作业执行一个reduce任务,持续9小时。在检查日志时,我注意到
org.apache.hadoop.hive.ql.exec.FileSinkOperator: FS[7]: records written - 1916000001 ...
对输出表进行分区,是否会减少最终作业所用的时间,从而使其并行化?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!