我想在PySpark中读取一个JSON文件,但是JSON文件是这样的格式(没有逗号和方括号):
{"id": 1, "name": "jhon"}
{"id": 2, "name": "bryan"}
{"id": 3, "name": "jane"}
在PySpark中有没有简单的方法来读取这个JSON?
我已经试过这个代码:
df= spark.read.option("multiline", "true").json("data.json")
df.write.parquet("data.parquet")
但它不起作用:在 parquet 文件中,只显示第一行。
我只想读取这个JSON文件并保存为 parquet ...
2条答案
按热度按时间8cdiaqws1#
在从你提到的文件中阅读数据时,只出现第一行,因为
multiline
参数被设置为True
,但是在本例中,有一行是JSON对象。因此,如果你将multiline
参数设置为False
,它将按预期工作。如果您的JSON文件在文件中包含JSON数组,如
或
将
multiline
参数设置为True
即可。gab6jxml2#
首先尝试以文本文件的形式读取,然后将其解析为json对象