避免pig输出文件中出现多个头文件

wfsdck30  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(291)

我们使用pig从包含数千个文件的目录中加载文件,对它们进行转换,然后输出合并输入的文件。
我们注意到输出文件包含处理的每个文件的头记录,即头在每个文件中出现多次。
有没有办法让每个输出文件只有一次头文件?

raw_data = LOAD '$INPUT' 
   USING org.apache.pig.piggybank.storage.CSVExcelStorage(',')

做一些变换

STORE data INTO '$OUTPUT' 
USING  org.apache.pig.piggybank.storage.CSVExcelStorage('|')
xsuvu9jc

xsuvu9jc1#

你试过这个选项吗? SKIP_INPUT_HEADER 看到了吗https://github.com/apache/pig/blob/31278ce56a18f821e9c98c800bef5e11e5396a69/contrib/piggybank/java/src/main/java/org/apache/pig/piggybank/storage/csvexcelstorage.java#l85

相关问题