如何取消pyspark foreachpartition操作

jmo0nnb3  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(406)

如何取消长时间的分区操作?
例如,我有处理大量数据的代码(需要很长时间),但我希望能够允许用户取消操作-我该怎么做?

def get_data(self, spark_session):
    query = 'Some query...'
    my_data_frame = spark_session.sql(query)
    my_data_frame.foreachPartition(handle_data)
    # How to cancel on user request?
bwntbbo3

bwntbbo31#

可以使用

sc = spark_session.sparkContext
sc.setJobGroup(...)

# In a separate thread:

sc.cancelJobGroup(...)

pysparkapi文档中有一个完整的示例

相关问题