我有一个 Dataframe ,看起来像这样
| 水果|小行星2021|小行星2022|
| - ------|- ------|- ------|
| 苹果|十二|二十九|
| 香蕉|十一|三十一|
| 苹果|四十四|五十五|
| 橘子|三十|七十三|
| 橘子|十九|八十二|
| 香蕉|二十四|七十八|
水果的名称没有排序,所以我不能一次取n来分组,它们是随机列出的。我需要得到2021年和2022年水果的平均销量,以及苹果、橙子和香蕉的平均销量。
我的密码是
2021 <- c(mean(df$2021), sd(df$2021))
2022 <- c(mean(df$2022), sd(df$2022))
measure <- c('mean','standard deviation')
df1 <- data.table(measure,TE,TW,NC,SC,NWC)
输出如下所示:
| 措施|小行星2021|小行星2022|
| - ------|- ------|- ------|
| 均值|二十三点三|五十八|
| 标准差|十二、四|二十三点三|
但是我不确定从哪里开始按名称对行进行分组。
| 措施|小行星2021|苹果|香蕉|橘子|小行星2022|苹果|香蕉|橘子|
| - ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|- ------|
| 均值|二十三点三||||五十八||||
| 标准差|十二、四||||二十三点三||||
(with空格中的相应数字)
3条答案
按热度按时间nkkqxpd91#
我们可以使用
或者如果我们需要重复的列名
数据
xam8gpfp2#
我建议这可能是更好的(从长远来看)在一个长的格式,这一总结可以开始。这只是'平均',并不难重复
sd
和合并这一点:其中
ind
中的NA
表示所有果实,否则标记单个果实。bmp9r5qi3#
如果您将数据放入长格式,则可以使用聚合函数:
其中
value
是一个列,你可以创建一个新的列来放置2021
和2022
下的值,然后创建一个新的列year
,它相应地有2021
或2022
,在R中,长格式几乎总是要走的路。