hadoop大文件不拆分

ruyhziif  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(290)

我有一个输入文件的大小 136MB 我发射了一些 WordCount 测试,我只监视一个Map器。然后我开始 dfs.blocksize64MB 在我的 hdfs-site.xml 我还有一个Map绘制者。我做错了吗?

y53ybaqx

y53ybaqx1#

dfs.block.size 它并不是唯一一个扮演角色的,建议不要改变,因为它在全球范围内适用于hdfs。
mapreduce中的拆分大小由以下公式计算

max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))

所以您可以在driver类中将这些属性设置为

conf.setLong("mapred.max.split.size", maxSplitSize); 
conf.setLong("mapred.min.split.size", minSplitSize);

或在配置文件中作为

<property>
    <name>mapred.max.split.size</name>
    <value>134217728</value>
</property>
<property>
    <name>mapred.min.split.size</name>
    <value>134217728</value>
</property>

相关问题