在数据块中,我们使用Python命令
spark_df.groupBy("variable1").applyInPandas(python_function, schema=schema)
在spark_df的子集上运行python_function。该命令工作正常,计算也扩展到100多个CPU。但是,它需要几个小时才能完成,如果能监控计算的进度,那就太好了。有没有办法监控计算的进度?
spark_df
python_function
aiazj4mn1#
这是您可以使用Spark Web UI监视的内容。如果未更改任何默认值,则Web UI应在运行驱动程序的计算机的端口4040上运行。使用Web浏览器浏览到该端口,您应该能够实时监视作业/阶段/任务进度!一些例子:
localhost:4040
kubectl port-forward <driver-pod-name> 4040:4040
1条答案
按热度按时间aiazj4mn1#
这是您可以使用Spark Web UI监视的内容。
如果未更改任何默认值,则Web UI应在运行驱动程序的计算机的端口4040上运行。
使用Web浏览器浏览到该端口,您应该能够实时监视作业/阶段/任务进度!
一些例子:
localhost:4040
kubectl port-forward <driver-pod-name> 4040:4040
将驱动程序的4040端口转发到您的本地PC,然后再次浏览到localhost:4040
。