hadoopavro文件大小问题

h43kikqp 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(359)

我有一个cronjob，它每5分钟从internet上的服务器下载一次zip文件（200字节到1mb）。如果我按原样将zip文件导入hdfs，就会遇到臭名昭著的hadoop小文件大小问题。为了避免在hdfs中建立小文件，处理zip文件中的文本数据并将其转换为avro文件，每6小时等待一次，以便将我的avro文件添加到hdfs中。使用这种方法，我成功地将avro文件导入到hdfs中，文件大小大于64mb。文件大小从50mb到400mb不等。我关心的是，如果我开始构建的文件大小开始进入500kb或更大的avro文件大小范围，会发生什么。这会导致hadoop出现问题吗？其他人怎么处理这种情况？

hadoop hdfs avro bigdata

来源：https://stackoverflow.com/questions/32892445/hadoop-avro-file-size-concern

1条答案

按热度按时间

ev7lccsx1#

假设您有一些hadoop后聚合步骤，并且您正在使用一些可拆分的压缩类型（sequence、snappy、none），那么您不应该面临hadoop的任何问题。
如果您希望avro文件的大小更小，那么最简单的方法就是配置聚合窗口，并在需要时降低它（6小时=>3小时？）。另一种确保文件大小更加一致的方法是保持下载文件中的行数，然后在达到某一行阈值后合并上载。

赞(0）回复(0）举报 2021-05-30

我来回答

hadoopavro文件大小问题

1条答案

相关问题

热门标签

最新问答