我有一个用例,s3中有数百万个小文件需要spark处理。我有两个选择来减少任务数量:1。使用合并2。扩展combinefileinputformat
但我不清楚bot对性能的影响以及何时使用一个而不是另一个。
另外,combinefileinputformat是一个抽象类,这意味着我需要提供我的实现。但是sparkapi(newapihadooprdd)将类名作为param,我不知道如何传递可配置的maxsplitsize
我有一个用例,s3中有数百万个小文件需要spark处理。我有两个选择来减少任务数量:1。使用合并2。扩展combinefileinputformat
但我不清楚bot对性能的影响以及何时使用一个而不是另一个。
另外,combinefileinputformat是一个抽象类,这意味着我需要提供我的实现。但是sparkapi(newapihadooprdd)将类名作为param,我不知道如何传递可配置的maxsplitsize
1条答案
按热度按时间3pvhb19x1#
在这种情况下,另一个很好的选择是
SparkContext.wholeTextFiles()
它为每个文件创建一个记录,其名称为key
内容作为value
--见文件