apachedrill的性能

dphi5xsq 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(425)

是否有任何性能基准（真正的）比较毒刺与 Impala 与钻？另外，哪一个是首选的-我的用例将主要针对配置单元顶部的特殊交互式查询。谢谢。

hadoop Hive impala apache-tez apache-drill

来源：https://stackoverflow.com/questions/32153229/performance-of-apache-drill

2条答案

按热度按时间

piwo6bdm1#

网站上有一些性能数据http://allegro.tech/fast-data-hackathon.html.
总的来说，我们看到drill和impala在交互查询的性能上是相当的，drill的区别在于它能够在没有元数据定义的情况下进行查询，并且易于使用json数据。
请注意，这些测试是在drill上更旧的版本上进行的，例如0.8/0.9（也没有针对数据位置进行适当配置）。现在drill是1.1，在sql（窗口函数等）和性能上有很多改进。

赞(0）回复(0）举报 2021-06-03

ffx8fchx2#

你不能这样做，这是没有意义的，你永远不应该相信这样的基准。
一切都取决于你自己的数据，你有json文件吗？喜欢训练。您希望查询1tb以上的数据，首选配置单元等。
此外，您还可以考虑文件格式、json、kudu、parquet或orc。
然后是优化，hive+tez对于并行查询似乎更好，但是对于单个查询来说非常慢。而 Impala 正好相反（mapreduce和massivepararelprocessing）。
另外，您还需要考虑硬件资源、磁盘ssd等。。
我建议从apachedrill+json文件开始，然后尝试apachedrill和parquet或orc。
如果您需要帮助，请准确描述您拥有什么（数据+硬件）以及您需要什么。

赞(0）回复(0）举报 2021-06-03

我来回答

apachedrill的性能

2条答案

相关问题

热门标签

最新问答