我对scala还很陌生,有一种情况,我有一个包含多列的Dataframe,其中一些列在随机的地方有随机的空值。我需要找到任何这样的列甚至有一个空值,并将其从Dataframe中删除。
#### Input
| Column 1 | Column 2 | Column 3 | Column 4 | Column 5 |
| --------------| --------------| --------------| --------------| --------------|
|(123)-456-7890 | 123-456-7890 |(123)-456-789 | |(123)-456-7890 |
|(123)-456-7890 | 123-4567890 |(123)-456-7890 |(123)-456-7890 | null |
|(123)-456-7890 | 1234567890 |(123)-456-7890 |(123)-456-7890 | null |
#### Output
| Column 1 | Column 2 |
| --------------| --------------|
|(123)-456-7890 | 123-456-7890 |
|(123)-456-7890 | 123-4567890 |
|(123)-456-7890 | 1234567890 |
请告知。谢谢您。
1条答案
按热度按时间aamkag611#
我建议分两步进行:
排除不是
nullable
从Dataframe组合至少包含
null
把它们一起扔掉创建混合使用可空/不可空列的示例Dataframe:
执行步骤1和2: