我对大数据领域很幼稚。我开始探索它的工具,比如hadoop,并对这个框架和map/reduce框架有了清晰的认识,但仍然有很多问题:实际上我想分析电子邮件并对电子邮件进行分类,这样我就可以将电子邮件组织成不同的类别,但我想知道如何将这些电子邮件存储到hdfs中。我应该首先将我的电子邮件转换为文本文件(由间隔分隔的列组成:日期、作者、主题、内容……)还是由二进制键值对组成的序列文件,然后将文件存储到hdfs中?
我不习惯使用序列文件,但我读了很多关于hdfs如何将非结构化数据存储到这些类型的文件中的文章。有人能开导我吗?
提前谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!