在R中,
与
a)包含每个州所属的区域(东北部、南部、中北部、西部)的列表
regions <- list(
west = c("WA", "OR", "CA", "NV", "AZ", "ID", "MT", "WY",
"CO", "NM", "UT"),
south = c("TX", "OK", "AR", "LA", "MS", "AL", "TN", "KY",
"GA", "FL", "SC", "NC", "VA", "WV"),
midwest = c("KS", "NE", "SD", "ND", "MN", "MO", "IA", "IL",
"IN", "MI", "WI", "OH"),
northeast = c("ME", "NH", "NY", "MA", "RI", "VT", "PA",
"NJ", "CT", "DE", "MD", "DC")
)
以及B)具有状态和死亡的 Dataframe
#A tibble:
state Deaths
<chr> <int>
1 AL 29549
2 AK 741
3 AR 50127
4 NJ 15142
5 CA 175213
6 IA 1647
...
我想创建一个新的变量,将每个州与其所在地区相匹配,并汇总死亡人数。最好的方法是什么?
2条答案
按热度按时间s4n0splo1#
我们可以
stack
list
到一个两列的数据框架中,然后进行连接如果
df1
具有重复行,则可以按summarise
进行分组数据
r6l8ljro2#
我在这里所做的只是将列表创建到数据框中,其中一列表示区域,另一列表示州列表
这里我使用了一个dplyr函数“right_join”,它将根据特定的值“排列”不同的行和列,所以这里我们希望根据状态排列相应的区域。