如何防止将空avro文件提交到hdfs中?

n8ghc7c1  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(307)

我有一个工作,创建一个avro文件到hdfs和附加数据的文件。但是,有时不会有任何附加数据,在这种情况下,我不希望应用程序刷新并关闭文件,而是应该检查文件是否为空(但我假设avro模式将写入头中,因此从技术上讲不是空文件),如果为空,则删除该文件。
这对avro+hdfs lib可行吗?

uujelgoq

uujelgoq1#

为作业指定输出格式时,请尝试使用lazyoutputformat。它缓慢地创建输出,这意味着只有存在输出时才会创建输出文件。
因此,不要编写像这样的东西:job.setoutputformatclass(textoutputformat.class);
可以像这样使用lazyoutputformat:lazyoutputformat.setoutputformatclass(job,textoutputformat.class);

相关问题