我有hdfs上的数据,文件夹结构是这样的,
hdfs://ns1//20200101/00/00/
hdfs://ns1//20200101/00/01/
hdfs://ns1//20200101/00/02/
......
基本上,我们每分钟都会创建一个文件夹,并在其中放入数百个文件。
我们有一个spark(2.3)应用程序(用java编写),它每天处理数据,所以我们使用的输入路径如下hdfs://ns1//20200101,简单明了,但有时,一些文件损坏或大小为零,这会导致整个spark作业失败。
有没有简单的方法来处理任何坏文件?已经尝试过--conf spark.sql.files.ignorecorruptfiles=true,但没有任何帮助。
或者我们可以在提交spark作业时在命令行上使用一些“文件模式”,因为这些坏文件通常使用不同的文件扩展名。
或者,因为我正在使用javasparkcontext#newapihadoopfile(path,…)从hdfs读取数据,所以我能用javasparkcontext#newapihadoopfile(path,…)做些什么来忽略坏文件?
谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!