PySpark中是否出现“无法推断JSON的模式”错误?

vbkedwbf  于 2022-11-16  发布在  Apache
关注(0)|答案(2)|浏览(118)

我有一个json文件,大约有1,200,000条记录。我想把这个pyspark文件读为:

spark.read.option("multiline","true").json('file.json')

但它会导致以下错误:
分析异常:无法推断JSON的架构。必须手动指定。
当我在主文件中创建一个记录数较少的json文件时,此代码可以读取该文件。
当我将encoding设置为utf-8-sig时,可以使用pandas读取此json文件:

pd.read_json("file.json", encoding = 'utf-8-sig')

我怎样才能解决这个问题?

kuarbcqp

kuarbcqp1#

试试看:

spark.read.option("multiline","true").option("inferSchema", "true").json('file.json')
nx7onnlm

nx7onnlm2#

由于添加编码会有所帮助,因此您可能需要以下代码:

spark.read.json("file.json", multiLine=True, encoding="utf8")

相关问题