我有pyspark笔记本在数据库里运行。我使用pyhive中的“hive.connection”连接到外部配置单元群集。我的数据在spark数据框中。我的问题是如何将Dataframe中的数据写入hive中的一个新表中,该表位于不同于dataricks的集群中?谢谢
t1rydlwq1#
每个databricks部署都有一个中心配置单元元存储,所有集群都可以访问它来持久化表元数据。您可以选择使用现有的外部配置单元元存储示例,而不是使用databricks配置单元元存储。本文描述如何设置azuredatabricks集群以连接到现有的外部apache配置单元元存储。它提供了有关建议的元存储设置和集群配置要求的信息,后面是配置集群以连接到外部元存储的说明。您可以查看这篇关于使用azuredatabricks保护对共享metastore的访问的文章。
1条答案
按热度按时间t1rydlwq1#
每个databricks部署都有一个中心配置单元元存储,所有集群都可以访问它来持久化表元数据。您可以选择使用现有的外部配置单元元存储示例,而不是使用databricks配置单元元存储。
本文描述如何设置azuredatabricks集群以连接到现有的外部apache配置单元元存储。它提供了有关建议的元存储设置和集群配置要求的信息,后面是配置集群以连接到外部元存储的说明。
您可以查看这篇关于使用azuredatabricks保护对共享metastore的访问的文章。