有人能用wordcount解释spark处理任务的细节吗?

z31licg0  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(306)

条件:应用程序:wordcount文件:从hdfs读取的所有文件。文件块大小为128m。

问题1

spark如何处理文件大小不是128mb的文件?
我通过spark生成wordcount的文件,所以每个文件大小不等于128mb,如下所示。

每个零件文件的块大小为128m,但其大小为258.14mb。但在spark ui中,我看到每个任务的输入文件大小都等于128mb。spark如何处理这个过程?

问题2

spark是在下载文件时处理文件,还是等待文件下载后再开始处理

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题