我们使用pig从包含数千个文件的目录中加载文件,对它们进行转换,然后输出合并输入的文件。
我们注意到输出文件包含处理的每个文件的头记录,即头在每个文件中出现多次。
有没有办法让每个输出文件只有一次头文件?
raw_data = LOAD '$INPUT'
USING org.apache.pig.piggybank.storage.CSVExcelStorage(',')
做一些变换
STORE data INTO '$OUTPUT'
USING org.apache.pig.piggybank.storage.CSVExcelStorage('|')
1条答案
按热度按时间xsuvu9jc1#
你试过这个选项吗?
SKIP_INPUT_HEADER
看到了吗https://github.com/apache/pig/blob/31278ce56a18f821e9c98c800bef5e11e5396a69/contrib/piggybank/java/src/main/java/org/apache/pig/piggybank/storage/csvexcelstorage.java#l85