我知道spark做内存计算,比mapreduce快得多。我想知道spark对<10000的唱片有多好?我有大量的文件(每个文件有大约10000条记录,比如说100列文件)进入我的hadoop数据平台,我需要在加载到hbase之前执行一些数据质量检查。
我在hive中执行数据质量检查,它在后端使用mapreduce。每个文件大约需要8分钟,这对我来说相当糟糕。spark能不能给我一个更好的表现,比如说2-3分钟?
我知道我要做一个基准测试,但在我真正开始使用spark之前,我试着理解这里的基础知识。我记得,第一次创建rdd将是一项开销,因为我必须为每个传入的文件创建一个新的rdd,这将花费我一点时间。
我不知道哪种方法对我来说是最好的-spark、drill、storm还是mapreduce本身?
1条答案
按热度按时间weylhg0b1#
我只是在探索钻井vsSparkvsHive在数百万张唱片上的表现。dill和spark在我的例子中都快了5-10倍(我没有对具有重要ram的集群执行任何性能测试,我只是在单个节点上进行测试)计算速度快的原因是它们都执行内存中的计算。
在我的例子中,drill&spark的性能几乎可以媲美。所以,我说不出哪一个更好。你得在你这边试试。
对钻机进行测试不会花费太多时间。下载最新的演练,安装在maprhadoop集群上,添加hive存储插件并执行查询。