shell—检查hdfs文件是否压缩的命令

neekobn8  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(878)

“使用命令” file <filename> 在linux中显示文件是否被压缩。对于驻留在hdfs文件系统中的文件,如何实现这一点?

file 620591952596020.gz
620591952596020.gz: gzip compressed data, from FAT filesystem (MS-DOS, OS/2, NT)

file 269146229598756
269146229598756: ASCII text, with very long lines

这将帮助我避免压缩文件(gzip),该文件已经作为通过apacheoozie调用的shell脚本的一部分进行了压缩。


# !/bin/bash

HDFS_IN_PATH=$1;
IS_COMPRESS_FILE=true;

for archiveDir in 'ARCHIVE1' 'ARCHIVE2' ;
do
    HDFS_OUT_PATH=${HDFS_IN_PATH}/$archiveDir;

    for ls_entry in $(hdfs dfs -ls -C "$HDFS_IN_PATH"/$archiveDir);
    do
        fileAbsPath=$ls_entry;
        jobName=$(basename "${fileAbsPath}");

        if (hadoop fs -test -f "$fileAbsPath") ; then
            echo "Its not a directory ${fileAbsPath}"
            continue;
        fi

        for file in $(hdfs dfs -ls -C "$fileAbsPath");
        do
            filename=$(basename "${file}");

            if [ "$IS_COMPRESS_FILE" = true ]; then

              if(<<***COMMAND TO CHECK HDFS FILE ${file} IS COMPRESSED***>>); then
                  echo "File Name: ${file} is already compressed.."
                  continue;
              fi

              hadoop fs -cat "${file}" | gzip | hadoop fs -put - "${file}".gz;

              echo "Successfully compressed file..!";
            fi
        done

        hadoop archive -archiveName "${jobName}".har -p "${HDFS_OUT_PATH}" "${jobName}" "${HDFS_OUT_PATH}";
    done
done
nimxete2

nimxete21#

hdfs没有这样的命令 file 在linux中。相反,阅读extensión可能起作用: if [ "$file" == "*.gz" ] 其他需要python或java编码的选项有:
管理 ZipFileInputFormat 以确保zip文件是真正的压缩内容。
pyspark似乎有一个可以在表单中使用的选项 zipfile.ZipFile(in_memory_data, "r") .
两者都在这个链接中添加了地址。

相关问题