在处理文本文件时,hadoop如何识别记录?是基于换行符还是句号?如果我有一个5000字的文本文件列表,全部放在单行上,用空格隔开;没有新行字符、逗号或句号。recordreader将如何表现?e、 pqr xyz lmn qwe rew poio kjkh ascd lkyg。。。。。。
dsf9zpds1#
您可以在配置中使用 textinputformat.record.delimiter .如果未提供,它将回退以基于以下之一拆分行: '\n' (LF) , '\r' (CR), or '\r\n' (CR+LF) . 因此,您的示例行将作为单个记录读取。您可以通读linereader、textinputformat和linerecordreader的代码以了解更多详细信息。
textinputformat.record.delimiter
'\n' (LF) , '\r' (CR), or '\r\n' (CR+LF)
1条答案
按热度按时间dsf9zpds1#
您可以在配置中使用
textinputformat.record.delimiter
.如果未提供,它将回退以基于以下之一拆分行:
'\n' (LF) , '\r' (CR), or '\r\n' (CR+LF)
. 因此,您的示例行将作为单个记录读取。您可以通读linereader、textinputformat和linerecordreader的代码以了解更多详细信息。