spark基于成本的优化器，使用glue+s3

2w2cym1i 于 2021-06-25 发布在 Hive

关注(0)|答案(1)|浏览(354)

我在emr集群上运行spark作业。emr使用aws胶水作为配置单元元存储。作业以Parquet格式通过emrfs将数据写入s3。我用sparksession#table方法用sparksql读取Dataframe。
可以用aws胶水配置spark的基于成本的优化器（cbo）吗？
afaik，spark cbo在meta store中存储表级统计信息。它适用于hive，但不适用于spark default metastore（嵌入式derby）。所以我的困惑是基于这样一个问题：如果cbo已经在使用glue作为sparksql的元存储，那么它是否可以使用glue元存储。我想答案是肯定的，但还是不确定。

Hive apache-spark apache-spark-sql aws-glue aws-glue-data-catalog

来源：https://stackoverflow.com/questions/58692218/spark-cost-based-optimizer-with-glue-s3