如何获取parquet文件中的记录数

vptzau2j  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(391)

我有一个用pig脚本从text/dat文件创建的Parquet文件。
现在我想知道Parquet地板文件中有多少记录没有读取文件?
不管怎样,parquet文件在元数据的某处存储行数吗?

pgccezyw

pgccezyw1#

使用从路径读取 parquet.pig.ParquetLoader . 然后parqet文件将是一个普通文件,然后您可以进行记录计数。

LOGS = LOAD '/X/Y/abc.parquet' USING parquet.pig.ParquetLoader ;

LOGS_GROUP= GROUP LOGS ALL;

LOG_COUNT = FOREACH LOGS_GROUP GENERATE COUNT_STAR(LOGS);

dump LOG_COUNT;

相关问题