下面是我用来从pyspark集群(dataproc)将输出df写入bigquery的代码。在运行这个之前,我得到心跳超时问题,修复。然后我得到了执行器内存开销超过,增加了。现在,这段代码可以无限期地运行在日志中 2020-06-12 02:55:45.395 IST Cache Size Before Clean: 34922812, Total Deleted: 0, Public Deleted: 0, Private Deleted: 0
. 我应该从中了解什么?它在跑还是不跑?如果它没有运行,那么解决方案是什么?
output.write \
.format("bigquery") \
.option("table","{}.{}".format(bq_dataset, bq_table)) \
.option("temporaryGcsBucket", gcs_bucket) \
.mode('append') \
.save()
暂无答案!
目前还没有任何答案,快来回答吧!