templatetap的可伸缩性问题

ltqd579y  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(220)

我编写了一个级联1.2程序,对传感器网络的数据进行以下处理:
读取包含3列的csv文件:毫秒时间戳、事件类型(传感器数据、电池电量、传感器电源状态之一)、事件正文
将毫秒时间戳四舍五入到最接近的秒,然后按此值分组
按事件类型分组
使用以下模板将输出写出到templatetap:“{rounded timestamp}/{event type}/”
如果日志数据量较小(约300mb),则我的程序运行正常,但如果我使用emr群集上传感器网络生成的实际日志数据量(约200gb/天)运行该程序,则还原程序会继续失败,并显示以下消息:“任务尝试\u 20130116001 \u 0003 \u r \u00000 x \u 0报告状态失败602秒。”。杀人
如果我让模板中的模板tap static(比如“output”而不是“{rounded timestamp}/{event type}/”),那么作业将在3小时内完成,不会出现问题。
因此,问题似乎是在模板点击!
也许是因为无法处理这么多动态路径(但我的理解是,使用默认参数时,它可以随时保持约300个节点处于打开/活动状态?)
除了路径模板本身之外,我没有向模板tap传递任何参数-因此所有其他参数都是默认值。
我该怎么做才能使作业使用“{rounded timestamp}/{event type}/”模板工作?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题