如何在hdfs中查看文件的行组

tv6aics1  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(415)

我在jira中看到了这个页面,我想知道如何获得行组的相同视图。这样地:

hdfs中有没有命令可以向我显示这个?

yhxst69z

yhxst69z1#

我想这是 parquet-tools 筛选 grep ,就像

$ parquet-tools meta --debug <file-name> | grep "row group"
xiozqbni

xiozqbni2#

我报告了吉拉。我曾经

parquet-tools meta /path/to/file.parquet | grep "row group"

然后手动编辑输出以对齐数字。或者,您可以附加 | column -t 一些基本的调整。虽然在这种情况下,数字将左对齐而不是右对齐,但至少它们将一个接一个地排列起来。 parquet-tools 它本身是一个包含在parquet-mr中的未记录的助手脚本,而不是使用您可以调用的脚本

hadoop jar /path/to/parquet-tools-<VERSION>.jar

在hadoop集群或

java -jar /path/to/parquet-tools-<VERSION>.jar

在当地。对于后者,您必须使用本地配置文件构建Parquet地板,即。,

mvn package -Plocal

构建说明中对此进行了描述。

相关问题