hadoop块大小vs拆分vs块大小

6za6bjd0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(414)

我对hadoop的概念有点困惑。
两者有什么区别 Hadoop Chunk size , Split size and Block size ?
提前谢谢。

kcwpcxri

kcwpcxri1#

块大小和块大小相同。分割大小可能与块/块大小不同。
map reduce算法对文件的物理块不起作用。它适用于逻辑输入拆分。输入拆分取决于记录的写入位置。一个记录可以跨越两个Map器。
按照hdfs的设置方式,它将非常大的文件分解成大的块(例如,128mb大小),并将这些块的三个副本存储在集群中的不同节点上。hdfs不知道这些文件的内容。
为了解决这个问题,hadoop使用了存储在文件块中的数据的逻辑表示,称为输入拆分。当mapreduce作业客户端计算输入拆分时,它会计算出块中第一个完整记录的开始位置和块中最后一个记录的结束位置。
在块中最后一条记录不完整的情况下,输入分割包括下一块的位置信息和完成记录所需数据的字节偏移量。

更多细节请看这篇文章。
相关se问题:
关于hadoop/hdfs文件拆分
hadoop中的拆分大小与块大小

相关问题