分区配置单元表会提高filesinkoperator性能吗?

rlcwz9us  于 2021-05-27  发布在  Hadoop
关注(0)|答案(0)|浏览(212)

我正在创建一个hive输出表,它大约有40亿行。我没有把它分开。每次执行作业时,我注意到作业执行一个reduce任务,持续9小时。在检查日志时,我注意到

org.apache.hadoop.hive.ql.exec.FileSinkOperator: FS[7]: records written - 1916000001
...

对输出表进行分区,是否会减少最终作业所用的时间,从而使其并行化?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题