apache spark—用于管理重新计算的批处理框架

whlutmcx  于 2021-06-24  发布在  Flink
关注(0)|答案(0)|浏览(212)

我的问题需要获取许多源数据集,对它们应用转换来生成中间数据集,然后生成几个最终数据集。大多数数据都是静态的,但是,我需要支持在转换中更改参数。这意味着需要重新计算转换的结果以及依赖于它的数据集。
我简要介绍了beam、airflow、flink和其他一些,但它们主要集中在1.)流化或2.)并行化上。这些是否支持中间步骤的无效化,或者其他库/框架是否更适合?
谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题