我正在处理时间序列数据,我需要计算当前行之前匹配条件的行数。例如,我需要知道该行月份和客户之前的几个月有销售额(NETSALES > 0)。理想情况下,我会维护一个行计数器,当条件失败时重置(例如净销售额= 0)。
解决该问题的另一种方法是标记具有超过12个NETSALES的先前时段的任何行。
我最接近的方法就是
COUNT(*)
OVER (PARTITION BY cust ORDER BY dt
ROWS 12 PRECEDING) as CtWindow,
http://sqlfiddle.com/#!6/990eb/2
在上面的示例中,201310被正确地标记为12,但理想情况下,前一行应该是11。
解决方案可以是R或T-SQL。
已更新数据,表格示例:
library(data.table)
set.seed(50)
DT <- data.table(NETSALES=ifelse(runif(40)<.15,0,runif(40,1,100)), cust=rep(1:2, each=20), dt=1:20)
目标是计算一个如下所示的“run”列--当值为零时,该列被重置为零
NETSALES cust dt run
1: 36.956464 1 1 1
2: 83.767621 1 2 2
3: 28.585003 1 3 3
4: 10.250524 1 4 4
5: 6.537188 1 5 5
6: 0.000000 1 6 6
7: 95.489944 1 7 7
8: 46.351387 1 8 8
9: 0.000000 1 9 0
10: 0.000000 1 10 0
11: 99.621881 1 11 1
12: 76.755104 1 12 2
13: 64.288721 1 13 3
14: 0.000000 1 14 0
15: 36.504473 1 15 1
16: 43.157142 1 16 2
17: 71.808349 1 17 3
18: 53.039105 1 18 4
19: 0.000000 1 19 0
20: 27.387369 1 20 1
21: 58.308899 2 1 1
22: 65.929296 2 2 2
23: 20.529473 2 3 3
24: 58.970898 2 4 4
25: 13.785201 2 5 5
26: 4.796752 2 6 6
27: 72.758112 2 7 7
28: 7.088647 2 8 8
29: 14.516362 2 9 9
30: 94.470714 2 10 10
31: 51.254178 2 11 11
32: 99.544261 2 12 12
33: 66.475412 2 13 13
34: 8.362936 2 14 14
35: 96.742115 2 15 15
36: 15.677712 2 16 16
37: 0.000000 2 17 0
38: 95.684652 2 18 1
39: 65.639292 2 19 2
40: 95.721081 2 20 3
NETSALES cust dt run
2条答案
按热度按时间mitkmikd1#
这似乎做到了:
Cumulative sums over run lengths. Can this loop be vectorized?
罗兰编辑:
这是相同的更好的性能,也考虑到不同的客户:
编辑:joe添加了SQL解决方案http://sqlfiddle.com/#!6/990b/22
SQL解决方案在一台拥有128 gig内存、22 m行的机器上需要48分钟。R解决方案在具有4 gig ram的工作站上大约需要20秒。冲啊!
j5fpnvbx2#
我不能用R或T-SQL回答这个问题,但这正是Kaskada的目的--处理时间和基于事件的数据。
您可以从Parquet或各种其他格式加载数据。
由于Kaskada要求基于事件的数据按时间排序并按用户分组,因此编写以下类型的查询要容易得多: