spark csv中的多个空值

xpcnnkqh  于 2023-09-28  发布在  Spark
关注(0)|答案(2)|浏览(102)

我有一个csv文件,其中“”(空值)和“N/A”和“-”都在同一个文件中。我希望它们都作为空值读入dataframe。我知道spark-csv中有一个选项“nullValue”,它允许我将单个字符串视为null。但对我来说,这是不够的,原因很明显。
有一个来自spark的未决问题,https://github.com/databricks/spark-csv/issues/333
现在还开着我在想最优雅的方法来解决这个问题。

a0x5cqrl

a0x5cqrl1#

转载自我的评论:

  • 将字段作为字符串读入 Dataframe
  • 在那里进行Null替换
  • 将字段转换为整型
  • 然后将该 Dataframe 转换为数据集
iibxawm4

iibxawm42#

对于那些谁不能得到它的工作数据库社区版笔记本电脑,你可能还没有提到文件名。

相关问题