如何在PySpark中正确加载 Dataframe 中的1000万个json文件

2w3kk1z5  于 2023-02-07  发布在  Spark
关注(0)|答案(2)|浏览(147)

我在s3中有1000万个json文件,我想在数据块中的PySpark数据框中加载所有文件。
下面是我使用的代码:

schema = StructType([StructField("Col1",StringType(),True), ... , ..., ...])

df = spark.read.schema(schema).json("s3://data_bucket/json_files/")

在我统计了记录之后,我发现只有3858630个文件加载到 Dataframe 中。6,141,370个文件尚未加载。
我不知道为什么不是所有的文件都没有被加载。
我很感激你的帮助!

gwbalxhn

gwbalxhn1#

我将从检查这6,141,370个文件是否与您指定的schema完全匹配开始,如果不匹配,则可以将其清空。

ubof19bj

ubof19bj2#

我会把它们分成几千个文件,看看是否有效。如果有效,你可以扩展到更多的文件,并把 Dataframe 合并在一起。

相关问题