R语言如何删除包含超过2000个NA值的所有列？

tcomlyy6 于 2023-02-06 发布在其他

关注(0)|答案(4)|浏览(200)

我查过一个类似的例子

## Some sample data
set.seed(0)
dat <- matrix(1:100, 10, 10)
dat[sample(1:100, 50)] <- NA
dat <- data.frame(dat)
## Remove columns with more than 50% NA
dat[, -which(colMeans(is.na(dat)) > 0.5)]

但我不知道如何把它转换成一个数字，而不是一个百分比。

来源：https://stackoverflow.com/questions/60359777/how-to-remove-all-columns-that-contain-more-than-2000-na-values

4条答案

按热度按时间

rjzwgtxy1#

一个base R选项可以是：

dat[, colMeans(is.na(dat)) <= 0.5]

   X1 X2 X4 X5 X6 X8 X10
1  NA 11 NA NA NA 71  NA
2  NA 12 32 NA 52 72  NA
3   3 NA 33 NA 53 73  93
4   4 14 NA 44 NA NA  94
5   5 15 35 NA 55 75  95
6  NA NA 36 46 NA 76  NA
7  NA NA NA 47 57 NA  97
8   8 18 NA 48 NA 78  98
9   9 NA 39 NA 59 79  99
10 NA NA 40 50 NA 80 100

或使用特定的数字：

dat[, colSums(is.na(dat)) <= 5]

或者使用一半的行作为标准：

dat[, colSums(is.na(dat)) <= nrow(dat)/2]

对于dplyr也有同样的想法：

dat %>%
 select_if(~ mean(is.na(.)) <= 0.5)

或使用特定的数字：

dat %>%
 select_if(~ sum(is.na(.)) <= 5)

同样，使用一半的行作为标准：

dat %>%
 select_if(~ sum(is.na(.)) <= length(.)/2)

赞(0）回复(0）举报 2023-02-06

pdsfdshx2#

或者你也可以数一数：

dat[, -which(colSums(is.na(dat)) > 2000)]

赞(0）回复(0）举报 2023-02-06

8i9zcol23#

使用purrr：

purrr::discard(dat, ~sum(is.na(.x)) > 5)
   X1 X2 X3 X5 X6 X7 X8
1  NA 11 NA 41 NA 61 71
2  NA 12 NA NA 52 62 NA
3   3 13 23 NA 53 63 NA
4   4 NA NA NA NA NA NA
5   5 15 NA NA 55 65 NA
6  NA 16 26 46 56 66 76
7  NA 17 27 47 57 67 77
8   8 NA NA 48 58 NA 78
9   9 19 29 49 NA NA NA
10 10 NA 30 50 60 NA 80

或者：

purrr::keep(dat, ~sum(is.na(.x)) <= 5)
   X1 X2 X3 X5 X6 X7 X8
1  NA 11 NA 41 NA 61 71
2  NA 12 NA NA 52 62 NA
3   3 13 23 NA 53 63 NA
4   4 NA NA NA NA NA NA
5   5 15 NA NA 55 65 NA
6  NA 16 26 46 56 66 76
7  NA 17 27 47 57 67 77
8   8 NA NA 48 58 NA 78
9   9 19 29 49 NA NA NA
10 10 NA 30 50 60 NA 80

赞(0）回复(0）举报 2023-02-06

cl25kdpy4#

我把它乘以100，使它保持为百分比。因为你应该看起来像这样：

##Keep only the columns that their NA values are not greater than 50%

dat<-dat[(colMeans(is.na(dat)))*100 <= 50]

赞(0）回复(0）举报 2023-02-06

我来回答

R语言如何删除包含超过2000个NA值的所有列？

4条答案

相关问题

热门标签

最新问答

R语言 如何删除包含超过2000个NA值的所有列？

4条答案

相关问题

热门标签

最新问答

R语言如何删除包含超过2000个NA值的所有列？