hdfs中的块划分是如何发生的？

rkkpypqq 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(272)

大数据hadoop第一代。我对apachehadoop非常陌生。我只是怀疑我的问题是否无关紧要。
问题：字数问题（干调试）。
例子：
文件名：test.txt
文件大小：120 mb
默认块大小：64 mb
文件内容：

Hello StackOverflow
Hi StackOverflow
Hola StackOverflow
Mushi Mushi StackOverflow
.....
.....
.....
Mushi Mushi StackOverflow

块数为：2（64 mb+56 mb）
块1包含：

Hello StackOverflow
Hi StackOverflow
Hola StackOverflow
Mushi Mus

块2包含：

hi StackOverflow
.....
.....
.....
Mushi Mushi StackOverflow

注意：这里mushi字在块1和块2之间分开，因为在单词“mus”块大小变成64mb时，剩余的单词“hi”进入块2。
现在我的问题是：q1）这是可能的情景吗？
问题2）如果没有，为什么？
q3）如果是，那么输出的字数是多少。
q4）两个块的Map器输出是什么。

hadoop hdfs mapreduce

来源：https://stackoverflow.com/questions/42067280/how-blocks-divisions-happen-in-hdfs

1条答案

按热度按时间

g52tjvyc1#

mapreduce框架工作于inputsplit而不是hdfs块。
请看下面的se post，以便更好地了解给定文件的inputsplit和Map器数量。
hadoop进程记录是如何跨越块边界分割的？
默认减速器数量
关于您的问题：
问题1）是否可能出现这种情况？
对。可能吧。
q3）如果是，那么输出的字数是多少。
块2中的数据将被复制到正在处理inputsplit的mapper节点上。
更新：
关于您在评论中的其他查询，请参阅hadoop权威指南的下一行：
fileinputformats定义的逻辑记录通常不能整齐地放入hdfs块中。例如，textinputformat的逻辑记录是行，这通常会跨越hdfs边界。这与程序的功能没有关系（例如，行不会丢失或中断），但值得了解，因为这确实意味着数据本地Map（即，与输入数据在同一主机上运行的Map）将执行一些远程读取。这导致的轻微开销通常不显著。
在没有远程读取的情况下，hdfs块将在mapper节点中进行inputsplit。如果记录跨越Map器节点的边界，远程读取将把数据提取到第一个Map器节点，其中大部分数据都存在。

赞(0）回复(0）举报 2021-06-02

我来回答

hdfs中的块划分是如何发生的？

1条答案

相关问题

热门标签

最新问答