如果数据存储在不同的节点上,spark中的用户定义函数(udf)是以分布式方式工作还是将所有数据累积到主节点中进行处理?如果它以分布式方式工作,那么我们能否将python中的任何函数(无论是预定义函数还是用户定义函数)转换为spark udf,如下所述:spark.udf.register(“myfunctionname”,functionnewname)
bwitn5fc1#
sparkDataframe以分区的形式分布在集群中。每个分区都由udf处理,所以答案是肯定的。您也可以在spark ui中看到这一点。
1条答案
按热度按时间bwitn5fc1#
sparkDataframe以分区的形式分布在集群中。每个分区都由udf处理,所以答案是肯定的。您也可以在spark ui中看到这一点。