我有一个包含三个变量的数据框。我按两个变量分组
gruppierter_df <- df |>
group_by(A, B)
那我就做了
gruppierter_df |>
summarize(n=n())
这给了我一个输出,包括这个消息:
`summarise()` has grouped output by 'A'. You can override using the `.groups` argument.
在documentation中,它说,在执行summarize()
之后,删除了右边的分组变量。
我希望,在使用summarize()
之后,gruppieter_df只按“A”分组。但是如果我再次使用summarize()
,它仍然给出相同的输出,其中gruppieter_df仍然由两个变量“A”和“B”分组。
我本以为第二个summarize()
会给出与
gruppierter_df2 <- df |>
group_by(A)
gruppierter_df2 |>
summarize(n=n())
因为在第一次使用summarize()
后,按“B”分组将被删除。
如果您能向我解释summarize
对 Dataframe 的具体作用,我将非常高兴。
谢谢你,谢谢!
1条答案
按热度按时间a11xaf1n1#
您不会将
gruppierter_df |> summarize(n=n())
的结果保存在任何地方。如果你做你会发现只按A分组使用
summarize
根本不会改变gruppierter_df
,它会返回一个新的具有不同组的data.frame。你会看到一个不同的结果,如果你这样做