有没有办法使用spark从s3并行读取多个Parquet路径？

ktca8awb 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(316)

我的数据以s3（Parquet格式）存储在不同的路径下，我正在使用 spark.read.parquet(pathes:_*) 以便将所有路径读入一个Dataframe。不幸的是，spark按顺序（一条接一条路径）读取parquet元数据，而不是并行读取。spark读取元数据之后，数据本身将被并行读取。但是元数据部分的速度非常慢，机器的利用率也很低。
有没有办法用spark从s3并行读取多个Parquet路径？
如果能听到你对此的意见，我将不胜感激。

hadoop apache-spark parquet amazon-s3

来源：https://stackoverflow.com/questions/63755158/is-there-any-way-to-read-multiple-parquet-paths-from-s3-in-parallel-using-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

有没有办法使用spark从s3并行读取多个Parquet路径？

暂无答案！

相关问题

热门标签

最新问答