scala：：读取具有不同模式信息的多个Parquet文件

8wtpewkr 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(392)

我有一个要求，我必须阅读Parquet文件在不同的目录中的hdfs。目录按客户机细分，每个客户机都有不同的模式（命名约定）。
我正在使用scala将这些文件读入Dataframe。有没有一种方法可以通过使用客户机名称作为输入参数来动态更改输入字段的名称。我有将近30个客户需要阅读。
提前谢谢

1条答案

您可以首先使用 StructType 班级https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-指定模式，然后执行以下操作

spark.read.schema(myGeneratedSchema).parquet(path)