我有一个直播推特,我需要在hdfs存储。目前,我可以访问实时推文,并能够提取这些推文的信息。我的要求是,我需要将所有tweet附加到hdfs中的单个序列文件中。然而,我想通过两种方式来解决这个问题。或者我可以制作一个tweet来存储到hdfs中的一个小文件中,然后定期地将它们捆绑到一个序列文件中。我想到的第二种方法是在运行时读取序列文件,然后将新内容附加到序列文件中。请告诉我该走哪条路。如果有更好的解决方案来处理这些类型的用例,也请给我建议。
kgsdhlau1#
我建议使用Flume。在本例中,您可以看到tweet是如何流到hdfs的:https://github.com/cloudera/cdh-twitter-example
1条答案
按热度按时间kgsdhlau1#
我建议使用Flume。在本例中,您可以看到tweet是如何流到hdfs的:https://github.com/cloudera/cdh-twitter-example