我是hadoop和mapreduce的新手。在hadoop mapreduce中运行数据时遇到问题。我希望结果以毫秒为单位。有没有任何方法可以在毫秒内执行mapreduce作业?如果没有,那么hadoopmapreduce在一个完全分布式的多集群(5-6个节点)中可以占用的最短时间是多少。hadoop mapreduce中要分析的文件大小约为50-100mb。程序是用pig编写的。有什么建议吗?
我是hadoop和mapreduce的新手。在hadoop mapreduce中运行数据时遇到问题。我希望结果以毫秒为单位。有没有任何方法可以在毫秒内执行mapreduce作业?如果没有,那么hadoopmapreduce在一个完全分布式的多集群(5-6个节点)中可以占用的最短时间是多少。hadoop mapreduce中要分析的文件大小约为50-100mb。程序是用pig编写的。有什么建议吗?
2条答案
按热度按时间rjee0c151#
这是不可能的。hadoop本来就不适合实时应用。它最适合批量作业。mapreduce框架需要一些时间来接受和设置作业,这是不可避免的。我不认为让超高端机器来建立hadoop集群是一个明智的决定。此外,框架在实际开始作业之前必须做一些事情,例如创建数据的逻辑拆分。
ct2axkht2#
对于数据的临时实时查询,请使用imapala、apachedrill(wip)。drill基于googledremel。
hive作业被转换成mapreduce,因此hive本质上也是面向批处理的,而不是实时的。不过,还有很多工作要做,以提高hive(1和2)的性能。