监视pyspark的“applyInPandas()”的进度

brccelvz  于 2023-01-08  发布在  Spark
关注(0)|答案(1)|浏览(160)

在数据块中,我们使用Python命令

spark_df.groupBy("variable1").applyInPandas(python_function, schema=schema)

spark_df的子集上运行python_function。该命令工作正常,计算也扩展到100多个CPU。但是,它需要几个小时才能完成,如果能监控计算的进度,那就太好了。
有没有办法监控计算的进度?

aiazj4mn

aiazj4mn1#

这是您可以使用Spark Web UI监视的内容。
如果未更改任何默认值,则Web UI应在运行驱动程序的计算机的端口4040上运行。
使用Web浏览器浏览到该端口,您应该能够实时监视作业/阶段/任务进度!
一些例子:

  • 如果您的驱动程序在本地笔记本电脑上运行,只需使用Web浏览器浏览到localhost:4040
  • 如果您的驱动程序运行在kubernetes的某个pod上,请使用kubectl port-forward <driver-pod-name> 4040:4040将驱动程序的4040端口转发到您的本地PC,然后再次浏览到localhost:4040
  • ...

相关问题