我正在努力学习hdinsight和hadoop。
附加到hdfs中的文件而不是将额外的数据文件复制到hdfs中的同一个数据文件夹有什么好处?
更清楚的是,从我的单节点机器,我上传了我的数据文件到hdfs。现在,如果我需要向这个文件添加额外的数据,我可以使用“append”方法,对吗?或者我可以将新的额外文件发送到同一输入文件夹下的hdfs吗?因此它将有多个文件作为输入文件。
将额外的数据附加到hdfs文件有什么缺点吗?正如我正确理解的,因为数据块是64MB或128MB,所以我只需要一个额外的数据块,对吗?
假设我的第一个输入文件是75MB,我会有两个数据块64MB和11MB,如果我添加了新文件(75MB)而没有附加,那么我会有4个大小块:64MB、11MB、64MB和11MB。如果我使用append方法,那么我将有3个大小块:64MB、64MB和22MB。
我理解得对吗?多出一个数据块的缺点是非常大的问题吗?
暂无答案!
目前还没有任何答案,快来回答吧!