如何在PySpark中正确加载 Dataframe 中的1000万个json文件

2w3kk1z5 于 2023-02-07 发布在 Spark

关注(0)|答案(2)|浏览(147)

我在s3中有1000万个json文件，我想在数据块中的PySpark数据框中加载所有文件。
下面是我使用的代码：

schema = StructType([StructField("Col1",StringType(),True), ... , ..., ...])

df = spark.read.schema(schema).json("s3://data_bucket/json_files/")

在我统计了记录之后，我发现只有3858630个文件加载到 Dataframe 中。6，141，370个文件尚未加载。
我不知道为什么不是所有的文件都没有被加载。
我很感激你的帮助!

2条答案

我将从检查这6，141，370个文件是否与您指定的schema完全匹配开始，如果不匹配，则可以将其清空。

我会把它们分成几千个文件，看看是否有效。如果有效，你可以扩展到更多的文件，并把 Dataframe 合并在一起。