假设我有一个文件要用hadoop处理,并且我知道文件的大小小于hdfs的块大小。这是否可以保证文件不会被分割,并且我不需要为它编写inputspilt,因为默认的inputspilt不会分割它?
给定使用sequencefileoutputformat(或其他输出格式)保存的文件大于块大小,但只包含一个键值对。这是否意味着文件块将存储在同一节点上(复制副本除外),mapreduce任务将不会浪费太多时间来获取它们?这是否意味着我不需要编写自己的inputsplit,因为密钥不会被拆分(密钥大小小于块大小,并且只有一个密钥)?
暂无答案!
目前还没有任何答案,快来回答吧!