我正在尝试为下面的示例输入文件编写pig udf,并指定预期的输出。请帮助我与自定义项模板相同,或让我知道,如果有一种方法来做它没有自定义项。
我的示例输入:
2014-01-23T08:12:09.259443
Device Type make year
-- ------------ --------- --------------------------------------- -------------
desktop commercial hp 2010
laptop commercial Asus 2013
mobile personal Sony 2014
2015-01-15T08:12:09.259443
Device Type make year
-- ------------ --------- --------------------------------------- -------------
desktop commercial hp 2015
laptop commercial Asus 2016
mobile personal Sony 2013
我基本上需要以时间戳的形式输出,后跟以分隔分隔方式显示的字段,分隔符可以是“,”,“\t”,“|”。在这个例子中,我使用','作为分隔符。
预期产量:
2014-01-23T08:12:09.259443, desktop, commercial, hp, 2010
2014-01-23T08:12:09.259443, laptop, commercial, Asus, 2013
2014-01-23T08:12:09.259443, mobile, personal, Sony, 2014
2015-01-15T08:12:09.259443, desktop, commercial, hp, 2015
2015-01-15T08:12:09.259443, laptop, commercial, Asus, 2016
2015-01-15T08:12:09.259443, mobile, personal, Sony, 2013
注意:我不能做预处理,因为有一些tb的文件
1条答案
按热度按时间bweufnob1#
这就是逻辑:
请告诉我是否有更有效/更好的方法。谢谢!