目前我正在用以下代码解析我的Json提要:
rdd = self.spark.sparkContext.parallelize([(json_feed)])
df = self.spark.read.json(rdd)
只要值都存在,这就可以正常工作,但是如果我有一个Json(如Python dict),如下所示:
json_feed = { 'name': 'John', 'surname': 'Smith', 'age': None }
我想得到一个在age
列上有一个值null
的生成的DataFrame,但是我现在得到的是_corrupt_record
。
1条答案
按热度按时间polhcujo1#
导入缺少值的JSON对Spark的限制很大,一个简单的解决方法是将文件读取为文本,然后使用所需的模式进行解析。
假设JSON缺少“age”字段:
首先,以文本形式读取文件,然后使用所需的模式从文件中创建 Dataframe :