有一个pyspark等价于apachebeam的dofn.setup吗?

2mbi3lxu  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(216)

pyspark是否支持先为每个spark worker预计算一些数据,然后利用rdd和每个worker的预计算数据对rdd执行map操作?
我正在尝试为pyspark实现一个机器学习系统。我知道我可以在spark上使用mllib或tensorflow,但我希望尽可能通用,所以不想使用它们,只使用pyspark的最原始的变体。所以我想在预计算阶段预先加载一个经过训练的模型。
在apache beam中,这可以在dofn.setup中完成。Pypark有类似的吗?
或者我也尝试用python做apachebeam。这并不能帮助我克服这个问题,因为很明显,beam便携式转轮与spark的集成存在一些问题。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题