我在s3中有1000万个json文件,我想在数据块中的PySpark数据框中加载所有文件。
下面是我使用的代码:
schema = StructType([StructField("Col1",StringType(),True), ... , ..., ...])
df = spark.read.schema(schema).json("s3://data_bucket/json_files/")
在我统计了记录之后,我发现只有3858630个文件加载到 Dataframe 中。6,141,370个文件尚未加载。
我不知道为什么不是所有的文件都没有被加载。
我很感激你的帮助!
2条答案
按热度按时间gwbalxhn1#
我将从检查这6,141,370个文件是否与您指定的
schema
完全匹配开始,如果不匹配,则可以将其清空。ubof19bj2#
我会把它们分成几千个文件,看看是否有效。如果有效,你可以扩展到更多的文件,并把 Dataframe 合并在一起。