对于blob文件，使用zipwitindex读取特定行号之后的数据是否正确？

xyhw6mcr 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(183)

我使用apachepyspark的zipwithindex读取blob文件。我做批处理 n 一次行（应用程序要求）。
偶尔，由于一些数据问题，我们会在加载后注意到失败 m 迭代。手动修复错误行之后，我们将重新运行批处理作业。此重新运行从第0次迭代开始运行并继续，。。。
问题：对于重新运行的作业，是否可以使用zipwithindex筛选出 m * n 排？
另外，我没有保存索引值。每次加载数据时，我都进行zipwithindex。
具体地说，我试图理解zipwithindex是否在每次运行它时为每一行提供不同的索引。
链接：https://www.oreilly.com/library/view/pyspark-cookbook/9781788835367/04a73ee8-2bf5-4045-92b0-1085b0ca57dc.xhtml#：~：text=zipwithindex（）%20transformation，第一行%20row）%20of%20a%20file。
上面的文章说，我们可以用zipwithindex过滤第一行，所以过滤最上面的n*m行是否也可能bt不确定。

apache-spark pyspark

来源：https://stackoverflow.com/questions/62298707/for-a-blob-file-is-it-correct-to-use-zipwithindex-to-read-data-after-specific-l

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

对于blob文件，使用zipwitindex读取特定行号之后的数据是否正确？

暂无答案！

相关问题

热门标签

最新问答