hadoopavro文件大小问题

h43kikqp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(359)

我有一个cronjob,它每5分钟从internet上的服务器下载一次zip文件(200字节到1mb)。如果我按原样将zip文件导入hdfs,就会遇到臭名昭著的hadoop小文件大小问题。为了避免在hdfs中建立小文件,处理zip文件中的文本数据并将其转换为avro文件,每6小时等待一次,以便将我的avro文件添加到hdfs中。使用这种方法,我成功地将avro文件导入到hdfs中,文件大小大于64mb。文件大小从50mb到400mb不等。我关心的是,如果我开始构建的文件大小开始进入500kb或更大的avro文件大小范围,会发生什么。这会导致hadoop出现问题吗?其他人怎么处理这种情况?

ev7lccsx

ev7lccsx1#

假设您有一些hadoop后聚合步骤,并且您正在使用一些可拆分的压缩类型(sequence、snappy、none),那么您不应该面临hadoop的任何问题。
如果您希望avro文件的大小更小,那么最简单的方法就是配置聚合窗口,并在需要时降低它(6小时=>3小时?)。另一种确保文件大小更加一致的方法是保持下载文件中的行数,然后在达到某一行阈值后合并上载。

相关问题