我在azure synapse analytics中使用pyspark代码创建了3个不同的笔记本。笔记本正在使用Spark池运行。只有一个Spark池为所有3个笔记本电脑。当这3个笔记本单独运行时,默认情况下,所有3个笔记本都会启动spark pool。
我面临的问题与Spark池有关。每本笔记本要花10分钟才能开始。分配的vcores为4,executor为1。有人能帮我知道如何在azure synapse analytics中启动spark pool吗。
我在azure synapse analytics中使用pyspark代码创建了3个不同的笔记本。笔记本正在使用Spark池运行。只有一个Spark池为所有3个笔记本电脑。当这3个笔记本单独运行时,默认情况下,所有3个笔记本都会启动spark pool。
我面临的问题与Spark池有关。每本笔记本要花10分钟才能开始。分配的vcores为4,executor为1。有人能帮我知道如何在azure synapse analytics中启动spark pool吗。
1条答案
按热度按时间l2osamch1#
apachespark池作业的性能取决于多个因素。这些性能因素包括:
数据的存储方式
集群如何配置(小、中、大)
处理数据时使用的操作。
您可能面临的常见挑战包括:
由于执行器大小不正确而导致的内存限制。
耗时操作
导致笛卡尔操作的任务。
还有许多优化可以帮助您克服这些挑战,例如缓存和允许数据倾斜。
下面的文章在azuresynapse分析中优化apachespark作业(预览)描述了常见的spark作业优化和建议。