从EMRpySpark访问athena视图，重新创建外部表或胶水目录，这是最有效的方法

mf98qq94 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(331)

我读了其他问题，我对这个选项感到困惑。我想读一本书 Athena view 在emr spark中，通过在google/stackoverflow上搜索，我意识到这些视图以某种方式存储在s3中，因此我首先尝试通过

Describe mydb.Myview

它提供模式，但不提供外部位置。我假设我不能从 S3 到目前为止，我在阅读《星火》中雅典娜的观点时考虑了什么
我考虑过以下选择
使用with STANTATION和external format as从这个雅典娜视图中创建一个新表
PARQUET CREATE TABLE Temporary_tbl_from_view WITH ( format = 'PARQUET', external_location = 's3://my-bucket/views_to_parquet/', ) AS ( SELECT * FROM "mydb"."myview"; ); 另一种选择是基于这个答案，这表明
当您启动emr集群（v5.8.0及更高版本）时，您可以指示它连接到您的glue数据目录。这是“创建群集”对话框中的复选框。当您选中此选项时，您的sparksqlcontext将连接到glue数据目录，并且您将能够看到athena中的表。
但我不知道我该怎么问这个问题 view （非表格）如果雅典娜表格/视图可通过 Glue catalogue 在spark上下文中，像这样的简单语句有效吗？

sqlContext.sql("SELECT * from mydbmyview")

问题是，在spark中读取此视图更有效的方法是什么？使用with语句（外部位置）重新创建表是否意味着将此内容存储在 Glue catalog 或者 S3 两次？如果是，我如何通过s3或胶水目录直接阅读？

apache-spark aws-glue amazon-emr amazon-athena

来源：https://stackoverflow.com/questions/63831575/accessing-athena-view-from-emr-pyspark-recreating-external-table-or-glue-catalo

1条答案

按热度按时间

l2osamch1#

为了与其他人共享我遵循的解决方案，我创建了启用了以下选项的集群

Use AWS Glue Data Catalog for table metadata

后来，我看到 database 来自aws glue的名称，并且能够在中看到所需的视图 tablename 如下所示

spark.sql("use my_db_name")
spark.sql("show tables").show(truncate=False)
+------------+---------------------------+-----------+
|database    |tableName                  |isTemporary|
+------------+---------------------------+-----------+
|  my_db_name|tabel1                     |false      |
|  my_db_name|desired_table              |false      |
|  my_db_name|tabel3                     |false      |
+------------+---------------------------+-----------+

赞(0）回复(0）举报 2021-05-27

我来回答

从EMRpySpark访问athena视图，重新创建外部表或胶水目录，这是最有效的方法

1条答案

相关问题

热门标签

最新问答