我的目标是在intervals
上执行左连接,其中bike_id
匹配,并且records
中的created_at
时间戳在intervals
表中的start
和end
之间
> class(records)
[1] "data.table" "data.frame"
> class(intervals)
[1] "data.table" "data.frame"
> records
bike_id created_at resolved_at
1 28780 2019-05-03 08:29:18 2019-05-03 08:35:37
2 28780 2019-05-03 21:05:28 2019-05-03 21:07:28
3 28780 2019-05-04 21:13:39 2019-05-04 21:15:40
4 28780 2019-05-07 17:24:20 2019-05-07 17:26:39
5 28780 2019-05-08 11:34:32 2019-05-08 12:16:44
6 28780 2019-05-08 23:38:39 2019-05-08 23:40:36
> intervals
bike_id start end id
1: 28780 2019-05-03 04:44:45 2019-05-03 16:58:56 1
2: 28780 2019-05-04 07:07:39 2019-05-04 14:48:29 2
3: 28780 2019-05-07 23:28:32 2019-05-08 12:56:24 3
4: 28780 2019-05-10 06:06:21 2019-05-10 13:12:08 4
5: 28780 2019-05-12 05:21:24 2019-05-12 11:35:52 5
6: 28780 2019-05-13 08:44:54 2019-05-13 12:28:31 6
字符串
在本例中,输出如下所示
> output
bike_id created_at resolved_at id
1 28780 2019-05-03 08:29:18 2019-05-03 08:35:37 1
2 28780 2019-05-03 21:05:28 2019-05-03 21:07:28 NULL
3 28780 2019-05-04 21:13:39 2019-05-04 21:15:40 NULL
4 28780 2019-05-07 17:24:20 2019-05-07 17:26:39 NULL
5 28780 2019-05-08 11:34:32 2019-05-08 12:16:44 NULL
6 28780 2019-05-08 23:38:39 2019-05-08 23:40:36 NULL
型
我试过使用tidyverse
的解决方案posted here,但这会导致R耗尽内存(尽管两个表中的记录量只有大约100K)
library('fuzzyjoin')
fuzzy_left_join(
records, intervals,
by = c(
"bike_id" = "bike_id",
"created_at" = "start",
"created_at" = "end"
),
match_fun = list(`==`, `>=`, `<=`)
) %>%
select(id, bike_id = bike_id.x, created_at, start, end)
型
返回错误:Error: vector memory exhausted (limit reached?)
在data.table
中或者甚至在基R中使用merge()
的滚动连接是否有替代方法?通过id连接两个嵌套的方法是什么?其中时间戳在连接表中的其他两个之间?
这里是数据
dput(intervals)
structure(list(bike_id = c(28780L, 28780L, 28780L, 28780L, 28780L,
28780L), start = structure(c(1556858685, 1556953659, 1557271712,
1557468381, 1557638484, 1557737094), class = c("POSIXct", "POSIXt"
), tzone = "UTC"), end = structure(c(1556902736, 1556981309,
1557320184, 1557493928, 1557660952, 1557750511), class = c("POSIXct",
"POSIXt"), tzone = "UTC"), id = c(1, 2, 3, 4, 5, 6)), row.names = c(NA,
-6L), class = c("data.table", "data.frame"), .internal.selfref = <pointer: 0x1030056e0>)
dput(records)
structure(list(bike_id = c(28780L, 28780L, 28780L, 28780L, 28780L,
28780L), created_at = structure(c(1556872158.796, 1556917528.845,
1557004419.928, 1557249860.939, 1557315272.396, 1557358719.333
), class = c("POSIXct", "POSIXt"), tzone = "UTC"), resolved_at = structure(c(1556872537.867,
1556917648.118, 1557004540.056, 1557249999.892, 1557317804.183,
1557358836.202), class = c("POSIXct", "POSIXt"), tzone = "UTC")), row.names = c(NA,
6L), class = "data.frame")
型
3条答案
按热度按时间xbp102n01#
我们可以使用
data.table
不等连接字符串
btxsgosb2#
我知道OP要求
tidyverse
或data.table
解决方案,但SQL似乎是完美的工具:字符串
或者使用
between
作为替代语法:型
编辑:正如@G. Grothendieck所指出的,我们可以在阅读数据之前设置环境的时区(使用
Sys.setenv
)以匹配OP的时区。输出:
型
数据:(OP的
dput
工作,因为从data.table
创建的指针)型
tkclm6bt3#
另一种方法是在
bike_id
和created_at
的日期部分进行连接,然后删除created_at
不在start
-end
区间内的ID。这可能会通过将事情分解为单独的步骤来解决内存问题:字符串
它返回:
型