hadoop中的java压缩数据排序

mwyxok5s  于 2021-05-27  发布在  Hadoop
关注(0)|答案(0)|浏览(207)

所以现在的情况是,我想看看在压缩文件上应用sort(来自map reduce示例)是否比在原始文件上更有效。为了运行这个实验,我首先启动randomtextwriter在hdfs中生成一个序列文件( file1 ).
然后我得到结果 hdfs dfs -getmerge file1 file2 然后我将file2压缩成file2.bz2
然后我将file2.bz2放入hdfs
最后,我在file2.bz2上启动sort(在hdfs中)
这将抛出一个错误java堆空间。考虑到初始文件大小小于500mo,我肯定不理解,我有以下配置
在yarn-site.xml中

<property>
                <name>yarn.nodemanager.resource.memory-mb</name>
                <value>2048</value>
        </property>

        <property>
                <name>yarn.scheduler.maximum-allocation-mb</name>
                <value>2048</value>
        </property>

        <property>
                <name>yarn.scheduler.minimum-allocation-mb</name>
                <value>1024</value>
        </property>

        <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
        </property>

在mapred-site.xml中

<property>
            <name>yarn.app.mapreduce.am.resource.mb</name>
            <value>2048</value>
    </property>

    <property>
            <name>mapreduce.map.memory.mb</name>
            <value>1024</value>
    </property>

    <property>
            <name>mapreduce.reduce.memory.mb</name>
            <value>1024</value>
    </property>
    <property>
            <name>mapred.child.java.opts</name>
            <value>-Xmx2048m</value>
    </property>

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题