哪种选择提供了Pypark的最佳性能?使用Map进行自定义项或rdd处理?我使用spark结构化流处理来消耗数据,对于每个微批处理,我将df转换为rdd,并执行一些python graphkit操作,然后再次将rdd转换为df,以写入kafka流。
k97glaaz1#
我一般认为udf比rddMap更快。根据您的python版本,您可以使用pandas udf,这肯定更快。请参阅此处:https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html
1条答案
按热度按时间k97glaaz1#
我一般认为udf比rddMap更快。根据您的python版本,您可以使用pandas udf,这肯定更快。请参阅此处:https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html