我是hadoop的新手。我搞不清楚是谁来分割输入文件。假设我有一个200MB的文件,块大小是64MB。所以我们需要4个块乘以复制因子。谁分割文件以及如何将分割后的文件提供给客户端以便能够写入数据节点。如果有可能,请给我提供这个信息的链接?我试着在谷歌上搜索,但没有找到详细的hadoop架构一步一步的解释。有几个网站,但缺少细节。
wsewodh21#
尽管这些年来一些细节发生了变化,但这两个文档(由参与hdfs早期开发的人员编写)非常好地描述了hdfs中的工作方式:http://www.aosabook.org/en/hdfs.htmlhttp://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf回答您的特定问题:hdfs中间件(特别是hdfs客户机组件)在上传文件之前将文件拆分为块,在您将文件下载到客户机时合并块。这对用户来说是完全透明的。
1条答案
按热度按时间wsewodh21#
尽管这些年来一些细节发生了变化,但这两个文档(由参与hdfs早期开发的人员编写)非常好地描述了hdfs中的工作方式:
http://www.aosabook.org/en/hdfs.html
http://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf
回答您的特定问题:hdfs中间件(特别是hdfs客户机组件)在上传文件之前将文件拆分为块,在您将文件下载到客户机时合并块。这对用户来说是完全透明的。