哪个选项提供了pyspark的最佳性能?使用map进行udf或rdd处理?

k2arahey  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(541)

哪种选择提供了Pypark的最佳性能?使用Map进行自定义项或rdd处理?
我使用spark结构化流处理来消耗数据,对于每个微批处理,我将df转换为rdd,并执行一些python graphkit操作,然后再次将rdd转换为df,以写入kafka流。

k97glaaz

k97glaaz1#

我一般认为udf比rddMap更快。根据您的python版本,您可以使用pandas udf,这肯定更快。请参阅此处:https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html

相关问题