我们有一大堆网络日志数据。我们需要对它进行会话化,并为每个会话生成上一个域和下一个域。我正在测试通过一个互动的工作流程对aws电子病历。
现在,我可以使用以下代码将数据会话化:http://goo.gl/l52wf . 我花了一点时间来熟悉编译和使用自定义项,但我已经做到了这一点。
以下是输入文件的标题行和第一行(以制表符分隔):
ID Date Rule code Project UID respondent_uid Type Tab ID URL domain URL path Duration Exit cause Details
11111111 2012-09-25T11:21:20.000Z 20120914_START_USTEST 20120914_TESTSITE_US_TR test6_EN_9 PAGE_VIEWED FF1348568479042 http://www.google.fr 11 OTHER
这是来自 SESSIONS
关系(获取关系的步骤如下所示):
(2012-09-27 04:42:20.000,11999603,20120914_URL_ALL,20120914_TESTSITE_US_TR,2082810875_US_9,PAGE_VIEWED,CH17,http://hotmail.com,_news/2012/09/26/14113684,28,WINDOW_DEACTIVATED,,3019222a-5c4d-4767-a82e-2b4df5d9db6d)
这大致就是我现在运行的测试数据会话:
register s3://TestBucket/Sessionize.jar
define Sessionize datafu.pig.sessions.Sessionize('30m');
A = load 's3://TestBucket/party2.gz' USING PigStorage() as (id: chararray, data_date: chararray, rule_code: chararray, project_uid: chararray, respondent_uid: chararray, type: chararray, tab_id: chararray, url_domain: chararray, url_path: chararray, duration: chararray, exit_cause: chararray, details: chararray);
B = foreach A generate $1, $0, $2, $3, $4, $5, $6, $7, $8, $9, $10, $11;
C = filter B by id neq 'ID';
VIEWS = group C by (respondent_uid, url_domain);
SESSIONS = foreach VIEWS { VISITS = order C by data_date; generate FLATTEN(Sessionize(VISITS)) as (data_date: chararray, id: chararray, rule_code: chararray, project_uid: chararray, respondent_uid: chararray, type: chararray, tab_id: chararray, url_domain: chararray, url_path: chararray, duration: chararray, exit_cause: chararray, details: chararray, session_id); }
(b处的步骤是将日期移动到第一个位置。c的步骤是过滤掉文件头)
我已经迷失了正确的方向。
我可以重复我的 SESSIONS
与…的关系 foreach
从pig脚本中获取下一个和上一个域?写一个自定义的udf并通过 SESSIONS
与此有关吗(写我自己的udf将是一次冒险!)
任何建议都将不胜感激。即使有人可以建议什么不做,也可能同样有用,所以我不会浪费时间研究垃圾方法。我对hadoop和pig脚本还比较陌生,所以这绝对不是我擅长的领域之一。
1条答案
按热度按时间qnzebej01#
如果有人能改进下面的解决方案,我一点也不感到惊讶,不过,它对我的情况很有效。我使用sessione自定义项(在我的问题中提到)作为参考来编写下面的自定义项。