我的数据以s3(Parquet格式)存储在不同的路径下,我正在使用 spark.read.parquet(pathes:_*) 以便将所有路径读入一个Dataframe。不幸的是,spark按顺序(一条接一条路径)读取parquet元数据,而不是并行读取。spark读取元数据之后,数据本身将被并行读取。但是元数据部分的速度非常慢,机器的利用率也很低。有没有办法用spark从s3并行读取多个Parquet路径?如果能听到你对此的意见,我将不胜感激。
spark.read.parquet(pathes:_*)
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!