jupyter-nb-cell-within-dataproc cluster(pyspark)显示执行了一个多小时,如何检查作业是否正在运行?

yrwegjxp  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(270)

下面是我用来从pyspark集群(dataproc)将输出df写入bigquery的代码。在运行这个之前,我得到心跳超时问题,修复。然后我得到了执行器内存开销超过,增加了。现在,这段代码可以无限期地运行在日志中 2020-06-12 02:55:45.395 IST Cache Size Before Clean: 34922812, Total Deleted: 0, Public Deleted: 0, Private Deleted: 0 . 我应该从中了解什么?它在跑还是不跑?如果它没有运行,那么解决方案是什么?

output.write \
      .format("bigquery") \
      .option("table","{}.{}".format(bq_dataset, bq_table)) \
      .option("temporaryGcsBucket", gcs_bucket) \
      .mode('append') \
      .save()

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题