mapreduce作业占用的时间

cnh2zyt3  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(272)

我是hadoop和mapreduce的新手。在hadoop mapreduce中运行数据时遇到问题。我希望结果以毫秒为单位。有没有任何方法可以在毫秒内执行mapreduce作业?如果没有,那么hadoopmapreduce在一个完全分布式的多集群(5-6个节点)中可以占用的最短时间是多少。hadoop mapreduce中要分析的文件大小约为50-100mb。程序是用pig编写的。有什么建议吗?

rjee0c15

rjee0c151#

这是不可能的。hadoop本来就不适合实时应用。它最适合批量作业。mapreduce框架需要一些时间来接受和设置作业,这是不可避免的。我不认为让超高端机器来建立hadoop集群是一个明智的决定。此外,框架在实际开始作业之前必须做一些事情,例如创建数据的逻辑拆分。

ct2axkht

ct2axkht2#

对于数据的临时实时查询,请使用imapala、apachedrill(wip)。drill基于googledremel。
hive作业被转换成mapreduce,因此hive本质上也是面向批处理的,而不是实时的。不过,还有很多工作要做,以提高hive(1和2)的性能。

相关问题