监视pyspark的“applyInPandas()”的进度

brccelvz 于 2023-01-08 发布在 Spark

关注(0)|答案(1)|浏览(170)

在数据块中，我们使用Python命令

spark_df.groupBy("variable1").applyInPandas(python_function, schema=schema)

在spark_df的子集上运行python_function。该命令工作正常，计算也扩展到100多个CPU。但是，它需要几个小时才能完成，如果能监控计算的进度，那就太好了。
有没有办法监控计算的进度？

1条答案

这是您可以使用Spark Web UI监视的内容。
如果未更改任何默认值，则Web UI应在运行驱动程序的计算机的端口4040上运行。
使用Web浏览器浏览到该端口，您应该能够实时监视作业/阶段/任务进度!
一些例子：

如果您的驱动程序在本地笔记本电脑上运行，只需使用Web浏览器浏览到localhost:4040
如果您的驱动程序运行在kubernetes的某个pod上，请使用kubectl port-forward <driver-pod-name> 4040:4040将驱动程序的4040端口转发到您的本地PC，然后再次浏览到localhost:4040。
...