我的DataFrame包含多个具有不同架构的null
df.show(false)
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
|null|null|1 |a |
+----+----+----+----+
我尝试将此 Dataframe 作为JSON文件写入HDFS,但Spark在写入JSON时忽略了空字段。
但即使我用
spark.write.option("ignoreNullFields", "false").json(...)
或
spark.write.option("ignoreNullFields", false).json(...)
包含空值的列将被忽略。
使用ignoreNullFields
选项时是否遗漏了什么?
3条答案
按热度按时间voase2hg1#
您未正确使用ignoreNullFields选项
正确做法是:
同时保留仅包含空值的列
k10s72fa2#
将其作为配置设置放入
SparkSession
f1tvaqid3#
对于来自未来的人们:利用PySpark 3.2.1,原来的“有问题的”解决方案现在可以工作了。
示例性JSON文件内容: