spark处理小文件(coalesce vs combinefileinputformat)

uz75evzq  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(562)

我有一个用例,s3中有数百万个小文件需要spark处理。我有两个选择来减少任务数量:1。使用合并2。扩展combinefileinputformat
但我不清楚bot对性能的影响以及何时使用一个而不是另一个。
另外,combinefileinputformat是一个抽象类,这意味着我需要提供我的实现。但是sparkapi(newapihadooprdd)将类名作为param,我不知道如何传递可配置的maxsplitsize

3pvhb19x

3pvhb19x1#

在这种情况下,另一个很好的选择是 SparkContext.wholeTextFiles() 它为每个文件创建一个记录,其名称为 key 内容作为 value --见文件

相关问题