何时使用序列文件

rn0zuynd  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(242)

我知道序列文件包含二进制值。
你能告诉我什么时候应该在Map上使用精确的排序吗。
我从我的朋友那里找到了一个mapreduce代码,他在hdfs中保存了一些ms outlook电子邮件。他正在创建一个电子邮件搜索应用程序,所以在为电子邮件编制索引之前,他首先将它们转换为序列文件。我不知道为什么。

1zmg4dgp

1zmg4dgp1#

每次您希望mr作业处理某个实现 Writable .
例如,您的系统中有一些表示用户的对象。
这个对象(例如称之为userwritable)必须包含许多字段,如年龄名称等(可能在简单的情况下,使用文本就足够了,用户由逗号分隔的字符串表示,但在大多数情况下,系统中会有更复杂的类型字段。。或Map/集合/列表)。
在上述情况下 job.setInputFormat(SequenceFileInputFormat.class); 是必需的。
希望有帮助。。。

相关问题