防止mapreduce程序中的输入分裂

bksxznpy  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(351)

我需要输入文件来Mapreduce程序。但是不应该分割该文件并将其作为一个整体传递给map函数。一个选项是将issplitable设置为false,但我如何才能做到这一点?

cwxwcias

cwxwcias1#

1) 通常,当文件扩展名为.gz时,issplitable返回false。

2) 您可以编写自己的inputformat覆盖issplitable。

3) 不要试图使issplitable return为false。而是将文件的块大小设置为大于文件大小:
hadoop fs-d fs.local.block.size=1000000000-put local\u name remote\u位置

kokeuurv

kokeuurv2#

为此,您需要编写一个自定义输入类,该类扩展了enter link description herefileinputformat,并且在此类中您需要重写名为issplittable的方法以返回false。

相关问题