R：拆分列和获取类别值之和的更简单方法

qlzsbp2j 于 2023-02-01 发布在其他

关注(0)|答案(2)|浏览(141)

我有一个数据框，其中每一行是一个观察，最后一列被称为“重叠”，显示来自不同数据集的观察，这些观察与这个数据框中的观察同时发生。
这些结果来自于我之前提出的一个问题，即如何从数据框中获取重叠数据。
所有这些重叠的观察结果都被连接到一个单独的列中，如下所示：

[1] "1_hands:N:1.768,1_hands:N:3.343,2_body:N:14.272"                                                                                                                                  
 [2] "1_hands:CH2:4.021,2_body:N:14.272"                                                                                                                                                
 [3] "1_hands:N:1.862,2_body:N:4.825"                                                                                                                                                   
 [4] "1_hands:CH2:1.978,2_body:N:4.825,2_body:CH1:1.075"                                                                                                                                
 [5] "1_hands:CH1:0.821,1_hands:N:1.417,1_hands:N:2.213,2_body:N:5.485"                                                                                                                 
 [6] "1_hands:CH1:3.557,2_body:N:3.519"                                                                                                                                                 
 [7] "1_hands:CH1:3.557,1_hands:N:1.249,2_body:N:3.519"                                                                                                                                 
 [8] "1_hands:CH1:4.896,2_body:CH1:3.308"                                                                                                                                               
 [9] "1_hands:CH1:4.896,2_body:CH1:3.308,2_body:N:1.67"                                                                                                                                 
[10] "1_hands:CH1:4.896,2_body:N:1.67,2_body:CH1:5.288"

每个观测由“，"分隔。“：“分隔观测的不同元素。例如观测：
1_双手：N：1.768
会被这样划分：
1手=类别
N =数值
1.768 =持续时间
我想做的是，得到每个类别和值的持续时间总和，本质上，我想把每个“1_hands：N：X”的持续时间加起来。
一种方法是使用stringr包，我可以使用各种str_split函数，通过分隔符“，”和“：“连续分解观察结果，最终得到一列特定类别和值的持续时间值，然后我可以得到其总和。
但是，它的效率非常低，而且我必须对多个数据集执行此操作。
有没有更简单的方法来做这件事？有没有可能循环通过这些数据，只是得到我需要的总和，而不把它分解成多组 Dataframe ？

来源：https://stackoverflow.com/questions/75262587/r-simpler-ways-of-splitting-columns-and-getting-sums-of-category-values

2条答案

按热度按时间

1u4esq0p1#

不确定您要达到的确切效率，但此解决方案应该相当快

library(dplyr)
library(data.table)
library(stringr)
library(purrr)

df1 <- your_data[1:5,1]
df2 <- your_data[6:10,1]

myFun <- function(data){
  temp <- data.table(vars = data)[, lapply(.SD, function(x) unlist(tstrsplit(x, ",", fixed = TRUE)))] %>% na.omit()
  temp <- setDT(tstrsplit(temp$vars, ":", fixed = TRUE, names = c("category", "value", "duration")))
}

dt <- list(df1, df2) %>%
  purrr::map(~ myFun(.x)) %>%
  rbindlist()
dt <- dt[, duration := as.numeric(duration)]

dt_sum <- dt[,.(durSum = sum(duration)), by = c("category", "value")]

赞(0）回复(0）举报 2023-02-01

zujrkrfu2#

请检查以下代码

数据

df <- data.frame(string=c("1_hands:N:1.768,1_hands:N:3.343,2_body:N:14.272",
                          "1_hands:N:1.768,1_hands:N:3.343,2_body:N:14.272",                                                                                                                                  
                          "1_hands:CH2:4.021,2_body:N:14.272",                                                                                                                                                
                          "1_hands:N:1.862,2_body:N:4.825",                                                                                                                                                   
                          "1_hands:CH2:1.978,2_body:N:4.825,2_body:CH1:1.075",                                                                                                                                
                          "1_hands:CH1:0.821,1_hands:N:1.417,1_hands:N:2.213,2_body:N:5.485",                                                                                                                 
                          "1_hands:CH1:3.557,2_body:N:3.519",                                                                                                                                                 
                          "1_hands:CH1:3.557,1_hands:N:1.249,2_body:N:3.519",                                                                                                                                 
                          "1_hands:CH1:4.896,2_body:CH1:3.308",                                                                                                                                               
                          "1_hands:CH1:4.896,2_body:CH1:3.308,2_body:N:1.67",                                                                                                                                 
                          "1_hands:CH1:4.896,2_body:N:1.67,2_body:CH1:5.288"))

编号

df %>% 
  tidyr::extract(string, into = c('category','value','duration'), regex = '(.*):(.*):(.*)') %>% 
  group_by(category, value) %>% summarise(duration=sum(as.numeric(duration)))

创建于2023年1月27日，使用reprex v2.0.2

输出

# A tibble: 5 × 3
# Groups:   category [2]
  category value duration
  <chr>    <chr>    <dbl>
1 1_hands  CH1      22.6 
2 1_hands  CH2       6.00
3 1_hands  N        17.0 
4 2_body   CH1      13.0 
5 2_body   N        68.3

赞(0）回复(0）举报 2023-02-01

我来回答

R：拆分列和获取类别值之和的更简单方法

2条答案

数据

输出

相关问题

热门标签

最新问答