将单集群hadoop安装更改为保留持久数据

flmtquvp 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(355)

我要在生产环境中做一个hadoop poc。poc包括：1。接受很多（现实生活中的）事件2。将它们累积起来，形成一组大小足够3的事件。将事件集持久化到单个文件hdfs中
如果poc成功，我想安装一个集群环境，但是我需要在单集群安装（poc）中保持数据的持久性。
那么，问题是：将hdfs单个集群中已经持久化的数据迁移到真正的集群hdfs环境有多困难？
提前感谢（并为我糟糕的英语）问候

hadoop hdfs

来源：https://stackoverflow.com/questions/49412786/change-single-to-cluster-hadoop-installation-keeping-persisted-data

1条答案

按热度按时间

bf1o4zei1#

你不需要迁移任何东西。
如果您在伪分布式模式下运行hadoop，那么只需添加指向现有namenode的datanode即可！
我想指出
将事件集持久化到单个文件hdfs中
我不确定是否要创建“单个文件”，但我建议您定期检查。如果流失败了怎么办？你如何捕捉掉下来的事件？spark、flume、kafka connect、nifi等可以让你做到这一点。
如果您所做的只是流式处理事件，并且希望将它们存储在一个可变的时间段内，那么kafka更适合该用例。你不一定需要hadoop。将事件推送到kafka，在有意义的地方使用它们，例如，搜索引擎或数据库（hadoop不是数据库）

赞(0）回复(0）举报 2021-06-01

我来回答

将单集群hadoop安装更改为保留持久数据

1条答案

相关问题

热门标签

最新问答