pig在本地模式与mapreduce模式下的性能比较

mctunoxg 于 2021-06-24 发布在 Pig

关注(0)|答案(1)|浏览(381)

我有一个hadoop集群，有3个节点和12gb的数据/1.5mid记录。我知道pig可以在本地模式（用于开发目的）和mapreduce模式下运行。
对于一个小的研究项目，我比较了本地模式和mapreduce模式下运行清管器的处理时间。在进行性能测量时，本地模式下的处理时间要比mapreduce模式下快得多(我的代码包括使用jsonloader和模式加载数据文件、过滤和转储结果。）
当map reduce模式比local模式快时，是否有经验法则？
谢谢您！

mapreduce performance apache-pig Local

来源：https://stackoverflow.com/questions/59446538/performance-of-pig-in-local-mode-vs-mapreduce-mode

1条答案

按热度按时间

c3frrgcw1#

不清楚您是如何调整Yarn簇以适应工作负载的，也不清楚您实际读取的文件有多大。
一般来说，假设pig可以自己进行多个处理，那么12gb的数据不足以保证hadoop/mapreduce的使用。
但是，如果文件在datanodes之间分割，并且您已经为这3台机器中的每台机器分配了足够的资源，那么作业的完成速度应该比只完成一台机器要快。
您甚至可以通过使用pig-on-tez或spark引擎进一步增强运行时。

赞(0）回复(0）举报 2021-06-24

我来回答

pig在本地模式与mapreduce模式下的性能比较

1条答案

相关问题

热门标签

最新问答