我想为以下问题提供一个tidyverse解决方案。在我的数据集中,我有各种因子水平的数据。我想创建一个新的因子水平“Total”,它是X的现有因子水平上所有值Y的总和。例如,可以通过以下方式完成:
mutate(Data, X = fct_collapse(X, Total = c("A", "B", "C", "D"))) %>%
group_by(X) %>%
summarize(Y = sum(Y))
然而,这也必然会覆盖原始的因子水平。我必须在一个额外的步骤中将原始数据集与新的折叠数据集结合起来。
我过去使用过的一种保留原始级别的解决方案是将数据转换为宽格式,然后继续使用rowwise()
和mutate()
创建一个带有“Total”的新变量,然后重新整形为long。
spread(Data, key = X, value = Y) %>%
rowwise() %>%
mutate(Total = sum(A, B, C, D)) %>%
gather(1:5, key = "X", value = "Y")
然而,我对这个解决方案很不满意,因为使用rowwise()
并不被认为是一个好的做法。如果你能告诉我一个可用的替代解决方案,如何在保留原始水平的同时合并不同因子水平下的数据,那就太好了。
最小可重现性示例:
Data<-data.frame(
X = factor(c("A", "B", "C", "D")),
Y = c(1000, 2000, 3000, 4000))
预期结果:
# A tibble: 5 x 2
X Y
<chr> <dbl>
1 A 1000
2 B 2000
3 C 3000
4 D 4000
5 Total 10000
3条答案
按热度按时间yeotifhr1#
使用janitor库,这将非常简单。
查看输出结构:
sauutmhj2#
使用@M--的第一个版本的评论中的建议,现在编辑,我添加了
bind_rows
。我还对输入数据集做了一点修改。根据OP和@camille的评论,这个数据集有一个因子水平
"Z"
,但保持原始顺序,并在最后添加了水平"Total"
。检查输出系数水平。
lc8prwob3#
这种解决方案也可以用于这种情况: