spark，忽略一些输入文件

hc8w905p 于 2021-05-18 发布在 Spark

关注(0)|答案(0)|浏览(329)

我有hdfs上的数据，文件夹结构是这样的，
hdfs://ns1//20200101/00/00/
hdfs://ns1//20200101/00/01/
hdfs://ns1//20200101/00/02/
......
基本上，我们每分钟都会创建一个文件夹，并在其中放入数百个文件。
我们有一个spark（2.3）应用程序（用java编写），它每天处理数据，所以我们使用的输入路径如下hdfs://ns1//20200101，简单明了，但有时，一些文件损坏或大小为零，这会导致整个spark作业失败。
有没有简单的方法来处理任何坏文件？已经尝试过--conf spark.sql.files.ignorecorruptfiles=true，但没有任何帮助。
或者我们可以在提交spark作业时在命令行上使用一些“文件模式”，因为这些坏文件通常使用不同的文件扩展名。
或者，因为我正在使用javasparkcontext#newapihadoopfile（path，…）从hdfs读取数据，所以我能用javasparkcontext#newapihadoopfile（path，…）做些什么来忽略坏文件？
谢谢。

Java apache-spark

来源：https://stackoverflow.com/questions/64584470/spark-ignore-some-input-files

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark，忽略一些输入文件

暂无答案！

相关问题

热门标签

最新问答