一个表包含3列。第一列包含组A中的所有项目(以.字符表示)。第二列和第三列包含布尔向量,指示组B和组C是否也包含该项目(TRUE)或不包含该项目(FALSE)。
您如何总结该表,以了解A组中存在的项目中有多少在B组和C组中存在或不存在?
在结果表中,应该计算groupA包含B或C中不存在的条目(FALSE,FALSE)、B或C中存在的条目或B或C中存在的条目的频率。原始表有数千个条目,而不仅仅是示例数据中的几个条目。
dplyr的解决方案将会受到赞赏。
示例数据:
example <- data.frame(
groupA = c('shshs', 'ihdfeowf', 'woefiewfh', 'awofjqweofj', 'hdhd', 'dudj'),
groupB = c(T, T ,F, F, T, F),
groupC = c(T, F, F, T, T, T))
expected_result <- data.frame(
groupA = c(1, 2, 1, 2),
groupB = c(F, T, T, F),
groupC = c(F, T, F, T))
3条答案
按热度按时间uujelgoq1#
以下是您可以使用的内容。
使用以下输出(如我们使用dplyr的tibble,但您可以转换为传统的数据.frame)。
ylamdve62#
您可以:
或者,如果你使用R〈4.1.0,那么你可以:
hgc7kmma3#
使用
dplyr
汇总 Dataframe 。预期输出