我在emr集群上运行spark作业。emr使用aws胶水作为配置单元元存储。作业以Parquet格式通过emrfs将数据写入s3。我用sparksession#table方法用sparksql读取Dataframe。
可以用aws胶水配置spark的基于成本的优化器(cbo)吗?
afaik,spark cbo在meta store中存储表级统计信息。它适用于hive,但不适用于spark default metastore(嵌入式derby)。所以我的困惑是基于这样一个问题:如果cbo已经在使用glue作为sparksql的元存储,那么它是否可以使用glue元存储。我想答案是肯定的,但还是不确定。
1条答案
按热度按时间p8h8hvxi1#
不幸的是,它不受支持。
不支持配置单元中基于成本的优化。不支持将hive.cbo.enable的值更改为true。
参考文献:https://docs.aws.amazon.com/emr/latest/releaseguide/emr-spark-glue.html