hive 带CSV的EXTERNAL TABLE未自动刷新

6jygbczu 于 2023-10-18 发布在 Hive

关注(0)|答案(1)|浏览(166)

我用CSV创建了一个外部表，如下所示。

CREATE EXTERNAL TABLE OpenCSVSerde_CSV (
  id STRING COMMENT 'from deserializer',
  name STRING COMMENT 'from deserializer'
  )
USING CSV
LOCATION 'abfss://[email protected]/csvtabletest';

当我添加一个新文件到路径abfss：//email protected(https://stackoverflow.com/cdn-cgi/l/email-protection)/csvtabletest时，表没有刷新，我必须手动执行REFRESH TABLE OpenCSVSerde_CSV。我尝试在集群级别设置spark配置，但也没有帮助。

spark.databricks.io.cache.enabled false

有没有办法让数据自动刷新？

Hive

来源：https://stackoverflow.com/questions/77001868/external-table-with-csv-is-not-getting-autorefreshed

1条答案

按热度按时间

8cdiaqws1#

默认情况下，这不会自动刷新表。因此，您需要在位置中添加新文件后运行REFRESH TABLE OpenCSVSerde_CSV。
但是，要使此查询自动运行，请遵循以下方法。
1.设置笔记本电脑的File Arrival触发器。每当添加文件时，它都会触发notebook运行上述查询。您可以参考this文档。
1.您也可以添加计划来运行笔记本电脑的时间间隔的基础上如何频繁添加您的文件。
您可以按照下面的步骤为第二个选项使用时间表。

后藤工作流>作业>创建作业

接下来添加所需的详细信息。