全部-
我有数百万个单个json文件,我想把它们都吸收到Spark Dataframe 中,但是我没有看到append
调用,在那里我可以把json作为附加项追加进去,相反,我唯一能让它工作的方法是:
for all json files do:
df_tmp = spark.read.json("/path/to/jsonfile", schema=my_schema)
df = df.union(df_tmp)
df
是最终聚合的 Dataframe 。这种方法可以处理几百个文件,但随着文件数量增加到几千个,速度越来越慢。我怀疑创建和合并 Dataframe 的成本非常高,而且感觉也很笨拙。有没有更好的方法?TIA
1条答案
按热度按时间goqiplq21#
你可以只传递路径到文件夹,而不是单个文件,它会读取所有的文件在它。
例如,您的文件位于名为
JsonFiles
的文件夹中,您可以写入,