是否有任何性能基准(真正的)比较毒刺与 Impala 与钻?另外,哪一个是首选的-我的用例将主要针对配置单元顶部的特殊交互式查询。谢谢。
piwo6bdm1#
网站上有一些性能数据http://allegro.tech/fast-data-hackathon.html.总的来说,我们看到drill和impala在交互查询的性能上是相当的,drill的区别在于它能够在没有元数据定义的情况下进行查询,并且易于使用json数据。请注意,这些测试是在drill上更旧的版本上进行的,例如0.8/0.9(也没有针对数据位置进行适当配置)。现在drill是1.1,在sql(窗口函数等)和性能上有很多改进。
ffx8fchx2#
你不能这样做,这是没有意义的,你永远不应该相信这样的基准。一切都取决于你自己的数据,你有json文件吗?喜欢训练。您希望查询1tb以上的数据,首选配置单元等。此外,您还可以考虑文件格式、json、kudu、parquet或orc。然后是优化,hive+tez对于并行查询似乎更好,但是对于单个查询来说非常慢。而 Impala 正好相反(mapreduce和massivepararelprocessing)。另外,您还需要考虑硬件资源、磁盘ssd等。。我建议从apachedrill+json文件开始,然后尝试apachedrill和parquet或orc。如果您需要帮助,请准确描述您拥有什么(数据+硬件)以及您需要什么。
2条答案
按热度按时间piwo6bdm1#
网站上有一些性能数据http://allegro.tech/fast-data-hackathon.html.
总的来说,我们看到drill和impala在交互查询的性能上是相当的,drill的区别在于它能够在没有元数据定义的情况下进行查询,并且易于使用json数据。
请注意,这些测试是在drill上更旧的版本上进行的,例如0.8/0.9(也没有针对数据位置进行适当配置)。现在drill是1.1,在sql(窗口函数等)和性能上有很多改进。
ffx8fchx2#
你不能这样做,这是没有意义的,你永远不应该相信这样的基准。
一切都取决于你自己的数据,你有json文件吗?喜欢训练。您希望查询1tb以上的数据,首选配置单元等。
此外,您还可以考虑文件格式、json、kudu、parquet或orc。
然后是优化,hive+tez对于并行查询似乎更好,但是对于单个查询来说非常慢。而 Impala 正好相反(mapreduce和massivepararelprocessing)。
另外,您还需要考虑硬件资源、磁盘ssd等。。
我建议从apachedrill+json文件开始,然后尝试apachedrill和parquet或orc。
如果您需要帮助,请准确描述您拥有什么(数据+硬件)以及您需要什么。