pysparks3文件读取性能考虑

z4bn682m  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(180)

我是Pypark的新手。我只是想知道我应该把多大的文件写进s3,这样spark就可以读取这些文件并进行处理。
我有大约400至500gb的总数据,我需要首先上传到s3使用一些工具。只是想了解s3中的每个文件应该有多大,以便spark能够高效地读取和处理。spark将如何将s3文件数据分发给多个执行者?
有读上帝的链接吗?
谢谢

bis0qfac

bis0qfac1#

请尝试64-128mb,但这取决于格式。
spark将s3数据视为独立于位置的数据,因此在其放置决策中不使用位置-只要工人有额外工作的能力

相关问题