我有一个要求,我必须阅读Parquet文件在不同的目录中的hdfs。目录按客户机细分,每个客户机都有不同的模式(命名约定)。我正在使用scala将这些文件读入Dataframe。有没有一种方法可以通过使用客户机名称作为输入参数来动态更改输入字段的名称。我有将近30个客户需要阅读。提前谢谢
xxls0lw81#
您可以首先使用 StructType 班级https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-指定模式,然后执行以下操作
StructType
spark.read.schema(myGeneratedSchema).parquet(path)
1条答案
按热度按时间xxls0lw81#
您可以首先使用
StructType
班级https://spark.apache.org/docs/latest/sql-programming-guide.html#programmatically-指定模式,然后执行以下操作