目标
我想从adls数据创建databricks全局非托管表,并从多个集群(自动化和交互式)使用它们。所以我在做什么 CREATE TABLE my_table ...
首先,然后 MSCK REPAIR TABLE my_table
. 我正在使用databricks内部配置单元元存储。
问题
有时 MSCK REPAIR
没有在集群间同步(几个小时内)。表示群集1立即看到分区,而群集2有一段时间没有看到任何数据。
有时它是同步的,但我还是不明白为什么它在其他情况下不起作用。
问题
Databrick是否为每个集群使用单独的内部hive元存储?如果是的话,集群之间的同步有什么保证吗?
1条答案
按热度按时间rwqw0loc1#
我相信每个databricks部署都有一个hive元存储:https://docs.databricks.com/data/metastores/index.html.
因此,如果要立即更新metastore,那么下一个最可能的问题是缓存了旧表元数据,因此看不到更新。你试过跑步吗
在出现同步问题的群集上?