hadoop-如果一个文件只有一条记录,并且文件大小大于块大小,那么如何形成输入拆分?

bsxbgnwa  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(454)

举例说明问题-
我有一个大小为500mb的文件(input.csv)
文件中只包含一行(记录)
那么文件将如何存储在hdfs块中,以及如何计算输入分割呢?

kt06eoxx

kt06eoxx1#

您可能需要检查以下链接:hadoop进程记录如何跨块边界拆分?注意上面提到的“远程读取”。
您问题中提到的单个记录将跨多个块存储。但是如果您使用textinputformat来读取,那么Map器必须跨块执行远程读取来处理记录。

相关问题