举例说明问题-我有一个大小为500mb的文件(input.csv)文件中只包含一行(记录)那么文件将如何存储在hdfs块中,以及如何计算输入分割呢?
kt06eoxx1#
您可能需要检查以下链接:hadoop进程记录如何跨块边界拆分?注意上面提到的“远程读取”。您问题中提到的单个记录将跨多个块存储。但是如果您使用textinputformat来读取,那么Map器必须跨块执行远程读取来处理记录。
1条答案
按热度按时间kt06eoxx1#
您可能需要检查以下链接:hadoop进程记录如何跨块边界拆分?注意上面提到的“远程读取”。
您问题中提到的单个记录将跨多个块存储。但是如果您使用textinputformat来读取,那么Map器必须跨块执行远程读取来处理记录。