spark数据处理

2lpgd968  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(237)

我的数据集列看起来像
device_name date categorycol1 categorycol2 .. categorycol10 valuecol1 valuecol2 .. valuecol1000 现在,我得到每天记录一次的数据流,这些数据流在hdfs中按天排列成文件夹。因此,人们可以读取每个文件夹来获取这些天的数据。 valuecol1 以及 valuecol2 是递增的计数器,意味着它们只会增加。为了得到合理的价值,我们必须得到一个三角洲。例如,例如 device1 我们需要弄清楚 valuecol1 登录时间 date2 以及 date1 .
同时计算新值,例如 calculation1 = difference between valuecol1 logged at date2 and date1 + difference between valuecol2 logged at date2 and date1 最后,我们收集了 mean , std 以及 media 问题:时间序列并不像股票行情数据那样是并置的
下面的操作会导致大量的洗牌
使用 join 以不同的方式连接数据集本身 date 为了得到不同 groubbykey 以及 reducebykey 用于获取分类COL的集合
你能提出处理这种数据处理的最佳策略吗

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题