我的数据集列看起来像
device_name date
categorycol1 categorycol2
.. categorycol10
valuecol1 valuecol2
.. valuecol1000
现在,我得到每天记录一次的数据流,这些数据流在hdfs中按天排列成文件夹。因此,人们可以读取每个文件夹来获取这些天的数据。 valuecol1
以及 valuecol2
是递增的计数器,意味着它们只会增加。为了得到合理的价值,我们必须得到一个三角洲。例如,例如 device1
我们需要弄清楚 valuecol1
登录时间 date2
以及 date1
.
同时计算新值,例如 calculation1
= difference between valuecol1 logged at date2 and date1
+ difference between valuecol2 logged at date2 and date1
最后,我们收集了 mean
, std
以及 media
问题:时间序列并不像股票行情数据那样是并置的
下面的操作会导致大量的洗牌
使用 join
以不同的方式连接数据集本身 date
为了得到不同 groubbykey
以及 reducebykey
用于获取分类COL的集合
你能提出处理这种数据处理的最佳策略吗
暂无答案!
目前还没有任何答案,快来回答吧!