如何使用ApachePig构造非结构化数据

bxgwgixi  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(319)

我有一个包含以下行的文件:

3124,"hello...",ku4
3125,"hello,hi",ab2

我想加载文件,使它有三列。我曾经 PigStorage(',') 但它也在分裂 "hello,hi" 一分为二。我想把它放在一块地下面。
我怎样才能做到这一点?

bihw5rsg

bihw5rsg1#

您可以编写自己的自定义udf或使用piggybank.jar中的csvloader

-- Get piggybank.jar that is compatible with your pig version and register 
   it in your pig script by pointing to the location of the jar file

REGISTER piggybank.jar

A = LOAD 'test.txt' USING org.apache.pig.piggybank.storage.CSVLoader(',') AS (f1:int,f2:chararray,f3:chararray);
B = FOREACH A GENERATE f1, f2, f3;
DUMP B;

相关问题