hadoop recordreader如何识别记录

v7pvogib  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(312)

在处理文本文件时,hadoop如何识别记录?是基于换行符还是句号?
如果我有一个5000字的文本文件列表,全部放在单行上,用空格隔开;没有新行字符、逗号或句号。recordreader将如何表现?
e、 pqr xyz lmn qwe rew poio kjkh ascd lkyg。。。。。。

dsf9zpds

dsf9zpds1#

您可以在配置中使用 textinputformat.record.delimiter .
如果未提供,它将回退以基于以下之一拆分行: '\n' (LF) , '\r' (CR), or '\r\n' (CR+LF) . 因此,您的示例行将作为单个记录读取。
您可以通读linereader、textinputformat和linerecordreader的代码以了解更多详细信息。

相关问题