pig脚本新记录

1sbrub3j  于 2021-06-21  发布在  Pig
关注(0)|答案(0)|浏览(234)

我正在处理文件中的以下邮件数据。。
(data source:infochimps) Message-ID: <33025919.1075857594206.JavaMail.evans@thyme> Date: Wed, 13 Dec 2000 13:09:00 -0800 (PST) From: john.arnold@enron.com To: slafontaine@globalp.com Subject: re:spreads Mime-Version: 1.0 Content-Type: text/plain; charset=us-ascii Content-Transfer-Encoding: 7bit X-From: John Arnold X-To: slafontaine@globalp.com @ ENRON X-cc: X-bcc: X-Folder: \John_Arnold_Dec2000\Notes Folders\'sent mail X-Origin: Arnold-J X-FileName: Jarnold.nsf 看到许多多头卖出夏季对前多头,以减少利润/绝对头寸限制/var。由于这些家伙是起飞前,他们也买回夏季。厄尔巴索明年冬天的大买家今天起飞利差。当然,这也是为什么价差在上升过程中如此强劲,而现在却如此之大的一个原因。实际上,目前唯一一家有风险溢价的公司是h/j。它在access上的交易量相当于180英镑,比今早下跌了40多英镑。当然,如果我们进入一个看跌期
................]
我将上述数据加载为:- A = load '/root/test/enron_mail/maildir/*/*/*' using PigStorage(':') as (f1:chararray,f2:chararray); 但是对于消息体,我得到了单独的元组,因为消息体包含新行。。
如何将最后一行合并为一行?我想把下面的一部分作为一个元组:
看到许多多头卖出夏季对前多头,以减少利润/绝对头寸限制/var。由于这些家伙是起飞前,他们也买回夏季。厄尔巴索明年冬天的大买家今天起飞利差。当然,这也是为什么价差在上升过程中如此强劲,而现在却如此之大的一个原因。实际上,目前唯一一家有风险溢价的公司是h/j。它在access上的交易量相当于180英镑,比今早下跌了40多英镑。当然,如果我们进入一个看跌期

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题