我有一个目录,其中我有两个Parquet文件具有相同的模式,但列顺序是不同的我想知道spark如何决定列顺序时,阅读目录输入目录读取1.parquet文件时的Dataframe1读取2.parquet文件时的Dataframe2读取完整目录时
hyrbngr71#
列顺序取决于模式元数据,您可以使用Parquet查看器检查每个文件。您还可以在读取parquet文件时提供一个模式,以便始终获得相同的列顺序。
val parquetSchema: Structype = new structype() .add("id",IntegerType,true) .add("login",StringType,true) spark.read.schema(parquetSchema).parquet(...)
1条答案
按热度按时间hyrbngr71#
列顺序取决于模式元数据,您可以使用Parquet查看器检查每个文件。
您还可以在读取parquet文件时提供一个模式,以便始终获得相同的列顺序。