我有一个由事件中心创建的文件系统,它每10分钟将文件保存到一个位置,格式如下:{命名空间}/{事件中心}/{分区ID}/{年}/{月}/{日}/{小时}/{分钟}/{秒}.avro
例如:事件thub/事件子服务/0/2022/01/01/01/11/31.avro
有2个分区:0和1,其余为上述日期格式。
我试图找出一种方法来循环每个文件夹结构,把avro文件,把它变成一个df,然后把它放在一个更合理的地方。
然而,我还是想不明白,也没什么进展。我已经做到了:
dbutils.fs.ls('/mnt/mount-name/eventhub/eventhubservice/0/2022/01/01/01/11/31.avro')
df = spark.read.format("com.databricks.spark.avro").load("/mnt/mount-name/eventhub/eventhubservice/0/2022/01/01/01/11/31.avro")
display(df)
以前有人在Azure Databricks中做过类似的事情吗?
1条答案
按热度按时间5m1hhzi41#
*
,表示所有内容。使用以下代码: