我想通过collapse包的fsum函数通过两个变量a和b聚合一个向量/矩阵y。fsum不返回空交点的值。有没有一种方法可以使用折叠包来保持空的交叉点?我知道我可以,例如。通过交叉连接和data.table工作,但由于我的函数输入是一个向量,速度非常重要,我想避免将输入矩阵转换为data.table,然后将输出转换回矩阵/向量(对于data.table的解决方案,请参见例如这里:data.table calculate sums by two variables and add observations for "empty" groups)。
下面是一个例子:
library(collapse)
set.seed(1)
a <- sample(1:5, 10, replace = TRUE)
b <- sample(1:3, 10, replace = TRUE)
y <- matrix(rnorm(10), 10, 1)
fsum(x = y, g = data.frame(a = a, b = b))
#> fsum(x = y, g = data.frame(a = a, b = b))
# [,1]
#1.1 -0.40955189
#1.2 -0.05710677
#2.2 0.50360797
#2.3 -1.28459935
#3.1 0.04672617
#3.2 -0.69095384
#3.3 -0.23570656
#4.1 0.80418951
#5.2 1.08576936
我想得到的:上面的常规输出,但保持(a,b)的空交集-例如(a = l,b = 3),并分配缺失或零:
# a b y
#1: 1 1 -0.7702614
#2: 1 2 -0.2992151
#3: 1 3 NA
#4: 2 1 NA
#5: 2 2 -0.4115108
#6: 2 3 0.4356833
#.................
作为补充:base::aggregate()
有一个函数参数drop = FALSE
,它实现了以下功能:
aggregate(y, data.frame(a, b), sum, drop = FALSE)
a b V1
#1 1 1 -0.7702614
#2 2 1 NA
#3 3 1 -1.2375384
#4 4 1 -0.2894616
#5 5 1 NA
#6 1 2 -0.2992151
#7 2 2 -0.4115108
#8 3 2 -0.8919211
#9 4 2 NA
#10 5 2 0.2522234
#11 1 3 NA
#12 2 3 0.4356833
#13 3 3 -0.2242679
#14 4 3 NA
#15 5 3 NA
然而,根据我的经验,data.table
和collapse
都要快得多,但collapse
的优点是它也可以处理矩阵对象(不需要转换为data.table)。
有没有办法通过崩溃来实现这一点?
1条答案
按热度按时间fcg9iug31#
是的,你可以用
fsum
来做,但是其他的函数,比如fmedian
会警告你。为此,您需要创建因子并使用:
进行交互,如下所示:对于前面的例子,我还想指出的是,对
data.frame
的昂贵调用是绝对没有必要的,fsum(x = y, g = list(a = a, b = b))
就足够了。