如何从parquet文件中获取架构/列名？

bxgwgixi 于 2021-06-02 发布在 Hadoop

关注(0)|答案(5)|浏览(815)

我有一个文件存储在hdfs中作为 part-m-00000.gz.parquet 我试过逃跑 hdfs dfs -text dir/part-m-00000.gz.parquet 但它被压缩了，所以我跑了 gunzip part-m-00000.gz.parquet 但它不会解压缩文件，因为它无法识别 .parquet 分机。
如何获取此文件的架构/列名？

hadoop hdfs parquet apache-pig

来源：https://stackoverflow.com/questions/33883640/how-do-i-get-schema-column-names-from-parquet-file

5条答案

按热度按时间

wsewodh21#

因为它不是文本文件，所以不能对它执行“-text”。即使没有安装Parquet工具，也可以通过配置单元轻松地读取它，前提是可以将该文件加载到配置单元表中。

赞(0）回复(0）举报 2021-06-02

xnifntxz2#

也许它能够使用桌面应用程序来查看Parquet地板和其他二进制格式的数据，如orc和avro。它是纯java应用程序，因此可以在linux、mac和windows上运行。有关详细信息，请查看bigdata文件查看器。
它支持数组、Map等复杂数据类型。

赞(0）回复(0）举报 2021-06-02

rslzwgfq3#

您将无法使用hdfs dfs-text“打开”该文件，因为它不是文本文件。Parquet文件写入磁盘的方式与文本文件非常不同。
同样，parquet项目也提供了parquet工具来执行您正在尝试执行的任务。打开并查看模式、数据、元数据等。
查看parquet工具项目（简单地说，就是一个jar文件）
此外，cloudera支持和贡献很大的Parquet，也有一个很好的Parquet工具使用的例子页面。该页面中针对您的用例的一个示例是

parquet-tools schema part-m-00000.parquet

checkout cloudera页面。将Parquet文件格式与impala、hive、pig、hbase和mapreduce一起使用

赞(0）回复(0）举报 2021-06-02

2fjabf4q4#

apachearrow使用许多不同的语言（包括c、c++、rust、go、java、javascript等）很容易获得parquet元数据。
下面介绍如何使用pyarrow（python-apache-arrow api）获取模式：

import pyarrow.parquet as pq

table = pq.read_table(path)
table.schema # pa.schema([pa.field("movie", "string", False), pa.field("release_year", "int64", True)])

有关如何使用pyarrow从Parquet文件读取元数据信息的更多详细信息，请参见此处。
您还可以使用spark获取Parquet文件的模式。

val df = spark.read.parquet('some_dir/')
df.schema // returns a StructType

structtype对象如下所示：

StructType(
  StructField(number,IntegerType,true),
  StructField(word,StringType,true)
)

从structtype对象，可以推断parquet元数据中的列名、数据类型和可为null的属性。Spark进近没有箭头进近干净。

赞(0）回复(0）举报 2021-06-02

eagi6jfj5#

如果您的Parquet文件像我一样位于hdfs或s3中，您可以尝试以下操作：
高密度光纤

parquet-tools schema hdfs://<YOUR_NAME_NODE_IP>:8020/<YOUR_FILE_PATH>/<YOUR_FILE>.parquet

s3级

parquet-tools schema s3://<YOUR_BUCKET_PATH>/<YOUR_FILE>.parquet

希望有帮助。

赞(0）回复(0）举报 2021-06-02

我来回答

如何从parquet文件中获取架构/列名？

5条答案

相关问题

热门标签

最新问答