我使用apachepyspark的zipwithindex读取blob文件。我做批处理 n
一次行(应用程序要求)。
偶尔,由于一些数据问题,我们会在加载后注意到失败 m
迭代。手动修复错误行之后,我们将重新运行批处理作业。此重新运行从第0次迭代开始运行并继续,。。。
问题:对于重新运行的作业,是否可以使用zipwithindex筛选出 m * n
排?
另外,我没有保存索引值。每次加载数据时,我都进行zipwithindex。
具体地说,我试图理解zipwithindex是否在每次运行它时为每一行提供不同的索引。
链接:https://www.oreilly.com/library/view/pyspark-cookbook/9781788835367/04a73ee8-2bf5-4045-92b0-1085b0ca57dc.xhtml#:~:text=zipwithindex()%20transformation,第一行%20row)%20of%20a%20file。
上面的文章说,我们可以用zipwithindex过滤第一行,所以过滤最上面的n*m行是否也可能bt不确定。
暂无答案!
目前还没有任何答案,快来回答吧!