在hdfs中附加序列文件

cngwdvgl  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(258)

我有一个直播推特,我需要在hdfs存储。目前,我可以访问实时推文,并能够提取这些推文的信息。我的要求是,我需要将所有tweet附加到hdfs中的单个序列文件中。然而,我想通过两种方式来解决这个问题。或者我可以制作一个tweet来存储到hdfs中的一个小文件中,然后定期地将它们捆绑到一个序列文件中。我想到的第二种方法是在运行时读取序列文件,然后将新内容附加到序列文件中。
请告诉我该走哪条路。如果有更好的解决方案来处理这些类型的用例,也请给我建议。

kgsdhlau

kgsdhlau1#

我建议使用Flume。在本例中,您可以看到tweet是如何流到hdfs的:https://github.com/cloudera/cdh-twitter-example

相关问题