使用flume文件\u滚动Flume类型几分钟后卡住

guz6ccqo  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(461)

我使用flume file\u roll sink type通过syslogtcp源类型接收大量数据(速率约10000个事件/秒)。然而,将数据推送到syslogtcp端口的进程(spark streaming job)在15-20分钟内接收了大约150万个事件后卡住了。我还观察到运行flume ng代理的linux框中存在一些文件描述符问题。
下面是我使用的Flume配置:

agent2.sources = r1
agent2.channels = c1
agent2.sinks = f1

agent2.sources.r1.type = syslogtcp
agent2.sources.r1.bind = i-170d29de.aws.amgen.com
agent2.sources.r1.port = 44442

agent2.channels.c1.type = memory
agent2.channels.c1.capacity = 1000000000
agent2.channels.c1.transactionCapacity = 40000

agent2.sinks.f1.type = file_roll
agent2.sinks.f1.sink.directory = /opt/app/svc-edl-ops-ngmp-dev/rdas/flume_output
agent2.sinks.f1.sink.rollInterval = 300
agent2.sinks.f1.sink.rollSize = 104857600
agent2.sinks.f1.sink.rollCount = 0

agent2.sources.r1.channels = c1
agent2.sinks.f1.channel = c1

由于性能问题(主要是由于高摄取率),我无法使用hdfs接收器类型:

zynd9foi

zynd9foi1#

这是我的错。我正在使用控制台日志记录,在某个时候,putty终端因为连接问题而冻结。导致整个Flume堵塞。通过重定向flume控制台输出或使用log4j.property将输出写入控制台,解决了冻结问题。

相关问题