pysparks3文件读取性能考虑

z4bn682m 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(180)

我是Pypark的新手。我只是想知道我应该把多大的文件写进s3，这样spark就可以读取这些文件并进行处理。
我有大约400至500gb的总数据，我需要首先上传到s3使用一些工具。只是想了解s3中的每个文件应该有多大，以便spark能够高效地读取和处理。spark将如何将s3文件数据分发给多个执行者？
有读上帝的链接吗？
谢谢

apache-spark pyspark amazon-s3

来源：https://stackoverflow.com/questions/66944373/pyspark-s3-file-read-performance-consideration

1条答案

按热度按时间

请尝试64-128mb，但这取决于格式。
spark将s3数据视为独立于位置的数据，因此在其放置决策中不使用位置-只要工人有额外工作的能力

赞(0）回复(0）举报 2021-07-09

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前