R-dplyr across：从基于索引的列范围中减去1列

nxowjjhe 于 2023-05-20 发布在其他

关注(0)|答案(2)|浏览(121)

这是我的第一篇文章，我对R相对较新，所以如果我的框架不好，我道歉。
我在其他地方没有发现这个问题，但最初的方法与这里描述的有点相似：
How to mutate several columns by column index rather than column name using across?。
我有一个包含时间序列数据的数据框，我想从一系列连续列中删除特定列。在下面的示例中，1 R中的值将从列1A、1B和1C中删除。同样地，2 R中的值将从2A、2B和2C中移除。
所以像这样的数据框

t | 1A | 1B| 1C|1RMV| 2A | 2B| 2C|2RMV| 
- | - -|- -|- -| - -| - -|- -|- -|- - | 
1 | 1  | 4 | 7 | 3  | 1  | 4 | 7 | 1  |   . . . . . . .
2 | 2  | 5 | 8 | 2  | 2  | 5 | 8 | 2  |
3 | 3  | 6 | 9 | 1  | 3  | 6 | 9 | 3  |

会变成这样

t | 1A | 1B| 1C|1RMV| 2A | 2B| 2C|2RMV| 
 -| - -|- -|- -| - -| - -|- -|- -|- - | 
1 | -2 | 1 | 4 | 3  | 0  | 3 | 6 | 1  |   . . . . . . .
2 | 0  | 3 | 6 | 2  | 0  | 3 | 6 | 2  |
3 | 2  | 5 | 8 | 1  | 0  | 3 | 6 | 3  |

我以前执行过这个‘手动‘，它的工作刚刚好，但由于试图使这个过程更自动化，我遇到了问题。
由于每个组中的列数（1A，1B，1C，而2A，2B，2C，2D，2 E等）不同，我最初创建了一个列表，其中包含所有列的索引位置，我想从其他列中减去这些列，如下所示：

#Return TRUE only for columns to be removed
df_boolean <- str_ends(colnames(df), "RMV")

#Create a 1D vector with elements of index positions of columns to be removed in Data
col_number <- ncol(Intensity_Raw_Data)
remove_indices <- c()
for(i in 1:col_number){
  if(df_boolean[i] == TRUE){
    remove_indices <- c(background_indices, i)
  }
}

然后我使用across from dplyr执行减法，如下所示：

group_number <- length(remove_indices)

#Calculate subtraction for first group, probably way to do it in one loop but first column is the time column and I'm lazy

df_Subtracted <- df %>%
mutate(across(2:(remove_indices[1] - 1), ~.  - df[(remove_indices[1])]))

#Calculate subtracction for remaining groups
for(i in 2:group_number){
  df_Subtracted <- df_Subtracted %>%
  mutate(across((remove_indices[i-1] + 1):(remove_indices[i] - 1), ~.x - df[(remove_indices[i])]))

在这里我遇到了我的问题，当手动运行这个（即在across（）中手动键入列名），列名保持不变。然而，当我使用上面的代码运行这个时，列名被重命名为：
1A$1R 1B$1R 1C$1R。...... 2A$2R 2B$2R 2C$2R 2D$2R。......
虽然View（）中的输出看起来是正确的，但使用str（）显示输出（df_Subtracted）中的每一列实际上是一个1变量 Dataframe 。
我不知道是什么原因导致这种情况发生，但我认为这可能是与我如何索引的列被删除的交叉。任何帮助将不胜感激！

**
-更新
**

我通过使用Akrun in this post使用的方法对GuedesBF anwser进行了轻微的修改，以生成按列名划分的数据的通用anwser。

df_subtracted_split <- df %>%
  split.default(sub('\\d+', '', names(df))) %>%
  lapply(function(x) {names(x)[ncol(x)] <- "RMV";x}) %>%
  map(~mutate(.x, across(1:last_col(1), ~.x - RMV))) 
 
 
df_subtracted <- do.call(qpcR:::cbind.na, Data_Final)

由于某种原因，list_rbind/list_cbind导致丢弃
列时，我读到here，它可能是我的 Dataframe 中的某些组缺少行的结果，因此我使用了qpcR中的cbind.na。
感谢GuedesBF和peter 861222！

r

来源：https://stackoverflow.com/questions/76265187/r-dplyr-across-subtracting-1-column-from-a-range-of-columns-based-on-index

2条答案

按热度按时间

yqlxgs2m1#

如果我们将data.frame split.default()到一个类似data.frames的列表中，执行必要的操作，最后将列表bind回到一个data.frame中，这会变得更容易。

library(dplyr)
library(readr)
library(purrr)

df %>%
    select(-t) %>% 
    split.default(parse_number(names(.)) %>%
    map(~mutate(.x, across(c(2A, 2B, 2C), \(x) x - cur_data[[4]])) %>%
    list_rbind()

赞(0）回复(0）举报 2023-05-20

qyuhtwio2#

这应该可以工作：

pivot_longer(df,cols=-1,names_pattern="(\\d)(\\w+)",names_to=c("id","name")) %>%
  mutate(value=case_when(name=="RMV"~value,
                         T~value-value[name=="RMV"]),.by=c("t","id")) %>%
  pivot_wider(names_from= c("id","name"),names_sep="") 

      t  `1A`  `1B`  `1C` `1RMV`  `2A`  `2B`  `2C` `2RMV`
  <dbl> <dbl> <dbl> <dbl>  <dbl> <dbl> <dbl> <dbl>  <dbl>
1     1    -2     1     4      3     0     3     6      1
2     2     0     3     6      2     0     3     6      2
3     3     2     5     8      1     0     3     6      3

赞(0）回复(0）举报 2023-05-20

我来回答

R-dplyr across：从基于索引的列范围中减去1列

2条答案

相关问题

热门标签

最新问答