R语言对data.table中的多个列应用多个不同的条件

f2uvfpb9 于 2023-05-20 发布在其他

关注(0)|答案(1)|浏览(90)

给定一个data.table

dt <- data.table(
        year = c(2020, 2021, 2022), 
        b    = c(10, 20, 30), 
        c    = c(100, 200, 300)
      )

我想根据不同的条件覆盖多个列。下面我使用了一个for循环来获得我想要的基本功能。

cols_to_update <- c("b", "c") 
conds <- c(2020, 2022)

for ( i in seq_along(cols_to_update)) { 
    dt[year == conds[i], (cols_to_update[i]) := NaN] 
})

print(dt)

我需要的最终输出应该是

year  b   c
1: 2020 NaN 100
2: 2021  20 200
3: 2022  30 NaN

我是新来的R和数据。表，我试图填补我的知识。为此，我怀疑在data.table中有一种更快、更简洁的方法来实现这一点，可能是使用lapply和.SD cols，但我没有找到这种方法。棘手的部分是将每个不同的条件应用于相应的列。
在这种情况下，条件总是基于同一列（即年份）。
这段代码运行得很好，尽管我担心for循环相对于data.table的效率可能有点慢（如果是这样的话，请随时告诉我这是一个愚蠢的问题）。

来源：https://stackoverflow.com/questions/76231736/apply-multiple-different-conditions-to-multiple-columns-in-data-table

1条答案

按热度按时间

bf1o4zei1#

dt[, c(cols_to_update) :=
  Map(
    function(x, yr) replace(x, year == yr, NaN),
    .SD, conds),
  .SDcols = cols_to_update ]
dt
#     year     b     c
#    <num> <num> <num>
# 1:  2020   NaN   100
# 2:  2021    20   200
# 3:  2022    30   NaN

如果您曾经在data.table类管道中看到过lapply(.SD, fun)，那么Map(fun, .SD)非常类似，但它允许将其他东西“压缩”在一起。在本例中，Map(fun, .SD[,cols_to_update], conds)展开为（有效地）

fun(dt$b, conds[1])
fun(dt$c, conds[2])

然后存储回cols_to_update。
但说实话，这确实降低了data.table的效率。如果你想尽可能快，这可能会胜出（使用合理大小的数据）：

for (i in seq_along(cols_to_update)) {
  set(dt, i = which(dt$year == conds[i]), j = cols_to_update[i], value = NaN)
}

赞(0）回复(0）举报 2023-05-20

我来回答

R语言对data.table中的多个列应用多个不同的条件

1条答案

相关问题

热门标签

最新问答

R语言 对data.table中的多个列应用多个不同的条件

1条答案

相关问题

热门标签

最新问答

R语言对data.table中的多个列应用多个不同的条件