spark在读取Parquet文件时如何决定列顺序

ia2d9nvy  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(590)

我有一个目录,其中我有两个Parquet文件具有相同的模式,但列顺序是不同的我想知道spark如何决定列顺序时,阅读目录
输入目录

读取1.parquet文件时的Dataframe1

读取2.parquet文件时的Dataframe2

读取完整目录时

hyrbngr7

hyrbngr71#

列顺序取决于模式元数据,您可以使用Parquet查看器检查每个文件。
您还可以在读取parquet文件时提供一个模式,以便始终获得相同的列顺序。

val parquetSchema: Structype = new structype()
.add("id",IntegerType,true)
.add("login",StringType,true)

spark.read.schema(parquetSchema).parquet(...)

相关问题