当前,我的表的架构是:
root
|-- product_id: integer (nullable = true)
|-- product_name: string (nullable = true)
|-- aisle_id: string (nullable = true)
|-- department_id: string (nullable = true)
我想对上表应用下面的架构,并删除所有不遵循下面架构的行:
val productsSchema = StructType(Seq(
StructField("product_id",IntegerType,nullable = true),
StructField("product_name",StringType,nullable = true),
StructField("aisle_id",IntegerType,nullable = true),
StructField("department_id",IntegerType,nullable = true)
))
3条答案
按热度按时间lxkprmvk1#
一定要退房
na.drop
上的函数data-frame
,可以基于空值、行中的最小空值以及具有空值的特定列删除行。6ju8rftf2#
加载忽略损坏记录的数据时使用选项“dropmalformed”。
ubby3x7f3#
如果数据与模式不匹配,spark将
null
作为该列中的值。我们只需要过滤所有列的空值。使用
filter
筛选所有列的null
值。