我正在评估sparksql和以spark为处理引擎的配置单元。大多数人更喜欢使用sparksql而不是spark配置单元。我觉得带Spark的Hive和Sparksql一样。否则我会错过任何东西。使用sparksql比在spark处理引擎上运行的配置单元有什么优势吗。任何线索都会有帮助
inkz8wg91#
其中一点是查询执行方式的不同。使用spark execution engine配置单元时,对于每个查询,您都会启动一组新的执行器,而在spark sql上,您有一个spark会话,其中包含一组长期存在的执行器,您可以在其中缓存数据(创建临时表),从而大大加快查询速度。
1条答案
按热度按时间inkz8wg91#
其中一点是查询执行方式的不同。
使用spark execution engine配置单元时,对于每个查询,您都会启动一组新的执行器,而在spark sql上,您有一个spark会话,其中包含一组长期存在的执行器,您可以在其中缓存数据(创建临时表),从而大大加快查询速度。