计算列-R中有多少ID具有多个值

ajsxfq5m 于 2023-01-18 发布在其他

关注(0)|答案(2)|浏览(129)

嗨，我有这个数据集：

>   id  s1 s2 s3 s4 
    1   "A"  "A"  "NA" "A"
    2   "NA"  "A"  "NA" "A"
    3   "Na"  "NA"  "NA" "A"
    4   "A"  "NA"  "NA" "Na"
    5   "A"  "A"  "NA" "A"

我想计算有多少ID在s1、s2、s3、s4中只有一个值“A”。在这种情况下，只有2个人（ID 3和4）。但如果我有一个大数据集，我如何计算呢？

来源：https://stackoverflow.com/questions/75132520/count-how-many-ids-have-more-than-one-value-in-columns-r

2条答案

按热度按时间

qpgpyjmq1#

您可以使用

which(rowSums(!is.na(df[-1])) == 1)

# [1] 3 4

将which()替换为sum()，以获取只有1个非缺失值的ID的数量。

更新

如果不幸将所有NA存储为"NA"、"Na"或"na"，则使用以下代码提前将它们转换回常规NA。

df[] <- lapply(df, \(x) { x[x %in% c('NA', 'Na', 'na')] <- NA; x })

赞(0）回复(0）举报 2023-01-18

iq3niunx2#

检查字符串中的“A”

library(tidyverse)

df %>%
  filter(rowSums(across(s1:s4, ~ str_detect(.x, "A")), na.rm = TRUE) == 1)

# A tibble: 2 × 5
     id s1    s2    s3    s4   
  <dbl> <chr> <chr> <lgl> <chr>
1     3 Na    NA    NA    A    
2     4 A     NA    NA    Na

赞(0）回复(0）举报 2023-01-18

我来回答

计算列-R中有多少ID具有多个值

2条答案

更新

相关问题

热门标签

最新问答