所以现在的情况是,我想看看在压缩文件上应用sort(来自map reduce示例)是否比在原始文件上更有效。为了运行这个实验,我首先启动randomtextwriter在hdfs中生成一个序列文件( file1
).
然后我得到结果 hdfs dfs -getmerge file1 file2
然后我将file2压缩成file2.bz2
然后我将file2.bz2放入hdfs
最后,我在file2.bz2上启动sort(在hdfs中)
这将抛出一个错误java堆空间。考虑到初始文件大小小于500mo,我肯定不理解,我有以下配置
在yarn-site.xml中
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>1024</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
在mapred-site.xml中
<property>
<name>yarn.app.mapreduce.am.resource.mb</name>
<value>2048</value>
</property>
<property>
<name>mapreduce.map.memory.mb</name>
<value>1024</value>
</property>
<property>
<name>mapreduce.reduce.memory.mb</name>
<value>1024</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx2048m</value>
</property>
暂无答案!
目前还没有任何答案,快来回答吧!