在hadoop中,假设我有一个文件a.txt,其中有一些示例数据,比如:
你好,你好吗?我正在学习hadoop分区。hadoop学习起来很有趣,有很好的机会等等。。。
这些数据是如何存储在块中的?据我所知,你说 Hello how
将存储在一个块中 are you?
存储在其他块中。如果是这样,那么在检索时,这是如何工作的。????
所以基本上我想了解文件中的数据是如何存储在hdfs块中的。它将打破内容或将他们分裂的内容,根据一些Unicode或内容大小等。。。
在hadoop中,假设我有一个文件a.txt,其中有一些示例数据,比如:
你好,你好吗?我正在学习hadoop分区。hadoop学习起来很有趣,有很好的机会等等。。。
这些数据是如何存储在块中的?据我所知,你说 Hello how
将存储在一个块中 are you?
存储在其他块中。如果是这样,那么在检索时,这是如何工作的。????
所以基本上我想了解文件中的数据是如何存储在hdfs块中的。它将打破内容或将他们分裂的内容,根据一些Unicode或内容大小等。。。
1条答案
按热度按时间yqhsw0fo1#
根据hadoop官方网站
hdfs被设计成支持非常大的文件。与hdfs兼容的应用程序是那些处理大型数据集的应用程序。这些应用程序只写一次数据,但它们读取一次或多次数据,并要求以流速度满足这些读取要求。hdfs支持文件的一次写多读语义。hdfs使用的典型块大小是64 mb。因此,一个hdfs文件被分割成64mb的块,如果可能的话,每个块将驻留在不同的datanode上。
hdfs只想确保将文件分割成大小均匀的块,这些块与hadoop示例的预定义块大小相匹配(除非为存储的文件输入了自定义值)。
您可以在hadoop官方网站的dataorganization部分中阅读更多关于这个部分的内容。您还可以引用hadoop分布式文件系统(hdfs)中的数据块。