我需要输入文件来Mapreduce程序。但是不应该分割该文件并将其作为一个整体传递给map函数。一个选项是将issplitable设置为false,但我如何才能做到这一点?
cwxwcias1#
1) 通常,当文件扩展名为.gz时,issplitable返回false。或2) 您可以编写自己的inputformat覆盖issplitable。或3) 不要试图使issplitable return为false。而是将文件的块大小设置为大于文件大小:hadoop fs-d fs.local.block.size=1000000000-put local\u name remote\u位置
kokeuurv2#
为此,您需要编写一个自定义输入类,该类扩展了enter link description herefileinputformat,并且在此类中您需要重写名为issplittable的方法以返回false。
2条答案
按热度按时间cwxwcias1#
1) 通常,当文件扩展名为.gz时,issplitable返回false。
或
2) 您可以编写自己的inputformat覆盖issplitable。
或
3) 不要试图使issplitable return为false。而是将文件的块大小设置为大于文件大小:
hadoop fs-d fs.local.block.size=1000000000-put local\u name remote\u位置
kokeuurv2#
为此,您需要编写一个自定义输入类,该类扩展了enter link description herefileinputformat,并且在此类中您需要重写名为issplittable的方法以返回false。