PySpark中是否出现“无法推断JSON的模式”错误？

vbkedwbf 于 2022-11-16 发布在 Apache

关注(0)|答案(2)|浏览(118)

我有一个json文件，大约有1，200，000条记录。我想把这个pyspark文件读为：

spark.read.option("multiline","true").json('file.json')

但它会导致以下错误：
分析异常：无法推断JSON的架构。必须手动指定。
当我在主文件中创建一个记录数较少的json文件时，此代码可以读取该文件。
当我将encoding设置为utf-8-sig时，可以使用pandas读取此json文件：

pd.read_json("file.json", encoding = 'utf-8-sig')

我怎样才能解决这个问题？

2条答案

试试看：

spark.read.option("multiline","true").option("inferSchema", "true").json('file.json')

由于添加编码会有所帮助，因此您可能需要以下代码：

spark.read.json("file.json", multiLine=True, encoding="utf8")