我是Pypark的新手。我只是想知道我应该把多大的文件写进s3,这样spark就可以读取这些文件并进行处理。我有大约400至500gb的总数据,我需要首先上传到s3使用一些工具。只是想了解s3中的每个文件应该有多大,以便spark能够高效地读取和处理。spark将如何将s3文件数据分发给多个执行者?有读上帝的链接吗?谢谢
bis0qfac1#
请尝试64-128mb,但这取决于格式。spark将s3数据视为独立于位置的数据,因此在其放置决策中不使用位置-只要工人有额外工作的能力
1条答案
按热度按时间bis0qfac1#
请尝试64-128mb,但这取决于格式。
spark将s3数据视为独立于位置的数据,因此在其放置决策中不使用位置-只要工人有额外工作的能力