我正在使用Azure Data Lake Store存储简单的JSON文件,其中包含以下JSON:
{
"email": "Usersemail@domain.com",
"id": "823956724385"
}
json文件名为myJson1.json
。Azure Data Lake Store已成功装载到Azure Databricks。
我能够通过以下方式成功加载JSON文件
df = spark.read.option("multiline", "true").json(fi.path)
fi.path
是一个FileInfo
对象,它是上面的MyJson1.json
文件。
等我找到了
spark.read.option("multiline", "true").json(fi.path)
df.show()`
我得到正确打印出来的JSON对象(DataFrame)为
+---------------------+------------+
| email| id|
+---------------------+------------+
|Usersemail@domain.com|823956724385|
+---------------------+------------+
我想做的是,用json.load(filename)
加载JSON文件,以便能够在Python中使用JSON对象。
等我找到了
with open('adl://.../myJson1.json', 'r') as file:
jsonObject0 = json.load(file)
然后我得到以下错误
[Errno 2]没有这样的文件或目录'adl://.../myJson1.json'
当我尝试(挂载点是正确的,我可以列出文件,也与spark.read到一个DataFrame)
jsonObject = json.load("/mnt/adls/data/myJson1.json")
然后我得到以下错误
“str”对象没有属性“read”
我不知道还能做些什么来加载JSON,我的目标是读取JSON对象并遍历键和它们的值。
2条答案
按热度按时间5n0oy7gb1#
技巧是对文件URL使用以下语法
我不得不添加
/dbfs/...
分别替换dbfs:/
与/dbfs/
在URL的开头.那我就可以
也许更容易些,但现在还可以.
ffvjumwh2#
要保持JSON样式并专门处理JSON格式的数据,您可以尝试使用以下代码加载数据:
检查键值对的计数:
然后遍历key:values:
希望这能帮上忙。