我要在生产环境中做一个hadoop poc。poc包括:1。接受很多(现实生活中的)事件2。将它们累积起来,形成一组大小足够3的事件。将事件集持久化到单个文件hdfs中如果poc成功,我想安装一个集群环境,但是我需要在单集群安装(poc)中保持数据的持久性。那么,问题是:将hdfs单个集群中已经持久化的数据迁移到真正的集群hdfs环境有多困难?提前感谢(并为我糟糕的英语)问候
bf1o4zei1#
你不需要迁移任何东西。如果您在伪分布式模式下运行hadoop,那么只需添加指向现有namenode的datanode即可!我想指出将事件集持久化到单个文件hdfs中我不确定是否要创建“单个文件”,但我建议您定期检查。如果流失败了怎么办?你如何捕捉掉下来的事件?spark、flume、kafka connect、nifi等可以让你做到这一点。如果您所做的只是流式处理事件,并且希望将它们存储在一个可变的时间段内,那么kafka更适合该用例。你不一定需要hadoop。将事件推送到kafka,在有意义的地方使用它们,例如,搜索引擎或数据库(hadoop不是数据库)
1条答案
按热度按时间bf1o4zei1#
你不需要迁移任何东西。
如果您在伪分布式模式下运行hadoop,那么只需添加指向现有namenode的datanode即可!
我想指出
将事件集持久化到单个文件hdfs中
我不确定是否要创建“单个文件”,但我建议您定期检查。如果流失败了怎么办?你如何捕捉掉下来的事件?spark、flume、kafka connect、nifi等可以让你做到这一点。
如果您所做的只是流式处理事件,并且希望将它们存储在一个可变的时间段内,那么kafka更适合该用例。你不一定需要hadoop。将事件推送到kafka,在有意义的地方使用它们,例如,搜索引擎或数据库(hadoop不是数据库)