我需要用scala插值一个时间序列
原始数据是
2020-08-01, value1 2020-08-03, value3
我想像这样在中间日期插入数据 2020-08-01, value1
2020-08-02, value2 2020-08-03, value3
其中value2是value1和value3的线性插值
有人能帮我一个样例代码,在scala spark中做到这一点吗?由于性能的原因,我宁愿避免自定义项和使用spark.range,但我对您的最佳解决方案持开放态度。
谢谢您!
1条答案
按热度按时间cczfrluj1#
0你可以分组,从数据框中得到最小,最大的日期,然后做一个序列,分解它得到一系列的日期。
1只为你的案子,最简单的一个。
2一点改进与任意
null
天。例如,当Dataframe由,则代码应更改如下: