我们将其中一个map reduce作业的dfs.blocksize设置为512mb,这是一个仅Map的作业。但是,一些Map器的输出超过512MB。例如:512.9 mb。我认为,Map程序块大小应该受到dfs.blocksize的限制。感谢您的意见。谢谢
b1payxdu1#
Map程序不会将其输出保存在hdfs中—他们使用常规文件系统来保存结果—这样做是为了不在hdfs集群中复制跨服务器的临时数据。因此,hdfs块大小与Map器的输出文件大小无关。
uujelgoq2#
我认为,Map程序块大小应该受到dfs.blocksize的限制。这不是真的。文件可以大于块大小。在那种情况下,它们只会跨越多个街区。
2条答案
按热度按时间b1payxdu1#
Map程序不会将其输出保存在hdfs中—他们使用常规文件系统来保存结果—这样做是为了不在hdfs集群中复制跨服务器的临时数据。因此,hdfs块大小与Map器的输出文件大小无关。
uujelgoq2#
我认为,Map程序块大小应该受到dfs.blocksize的限制。
这不是真的。文件可以大于块大小。在那种情况下,它们只会跨越多个街区。