在本地模式下运行hadoop进行生产

f1tvaqid  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(483)

我已经在hadoop上工作了很长时间了,我们都知道我们使用本地模式来构建脚本/作业并在本地测试它们。但是,如果我们有这样一个场景,我们的一些客户有小的数据集,一些客户有大的数据集,我们不想写两个业务逻辑的代码,一个用于本地运行模式,一个用于分布式运行模式,那么该怎么做呢。
生产部署的一种方法是将hadoop作业/pig/mr作业的本地模式运行提供给具有较小数据集的客户,并为具有较大数据集的客户提供分布式设置模式。
我的问题是:在产品上设置本地模式hadoop(因为数据量不是很大),这是个好主意吗?!
如果生产中的小数据集选择伪分布式模式,我需要考虑每种方法(本地模式和伪分布式模式)所面临的限制,以及为生产部署相同的方法是否有任何风险。如果有人遇到这样的设计挑战,请给予帮助。
请提供更多建议。。
谢谢

q8l4jmvw

q8l4jmvw1#

我们的一些产品版本是在伪分布式模式下发布的,在磁盘速度非常慢和cpu资源不足的情况下,甚至可以在本地模式下发布。这些配置通常安装在虚拟机上,因此我们向客户推荐的是定时虚拟机备份。这在一定程度上有助于恢复。
重要的是告知客户性能和可靠性的内在权衡,同时鼓励他们将当前配置视为未来可扩展性的正确体系结构,如果他们对功能和较小规模的总体结果感到满意的话。
我们有客户在伪分布式模式下运行,其中一次意外停机事件持续了2年——这是硬件级别的断电。有一些数据丢失涉及由于不正常关机,但它是有限的范围。
我们为这些安装所做的一件事是在hbase中安排一个由cron在非高峰时间每天触发的自动主要压缩。

相关问题