如何在hdfs中查看文件的行组

tv6aics1 于 2021-06-01 发布在 Hadoop

关注(0)|答案(2)|浏览(415)

我在jira中看到了这个页面，我想知道如何获得行组的相同视图。这样地：

hdfs中有没有命令可以向我显示这个？

2条答案

我想这是 parquet-tools 筛选 grep ，就像

$ parquet-tools meta --debug <file-name> | grep "row group"

我报告了吉拉。我曾经

parquet-tools meta /path/to/file.parquet | grep "row group"

然后手动编辑输出以对齐数字。或者，您可以附加 | column -t 一些基本的调整。虽然在这种情况下，数字将左对齐而不是右对齐，但至少它们将一个接一个地排列起来。 parquet-tools 它本身是一个包含在parquet-mr中的未记录的助手脚本，而不是使用您可以调用的脚本

hadoop jar /path/to/parquet-tools-<VERSION>.jar

在hadoop集群或

java -jar /path/to/parquet-tools-<VERSION>.jar

在当地。对于后者，您必须使用本地配置文件构建Parquet地板，即。，

mvn package -Plocal

构建说明中对此进行了描述。