使用flume文件\u滚动Flume类型几分钟后卡住

guz6ccqo 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(475)

我使用flume file\u roll sink type通过syslogtcp源类型接收大量数据（速率约10000个事件/秒）。然而，将数据推送到syslogtcp端口的进程（spark streaming job）在15-20分钟内接收了大约150万个事件后卡住了。我还观察到运行flume ng代理的linux框中存在一些文件描述符问题。
下面是我使用的Flume配置：

agent2.sources = r1
agent2.channels = c1
agent2.sinks = f1

agent2.sources.r1.type = syslogtcp
agent2.sources.r1.bind = i-170d29de.aws.amgen.com
agent2.sources.r1.port = 44442

agent2.channels.c1.type = memory
agent2.channels.c1.capacity = 1000000000
agent2.channels.c1.transactionCapacity = 40000

agent2.sinks.f1.type = file_roll
agent2.sinks.f1.sink.directory = /opt/app/svc-edl-ops-ngmp-dev/rdas/flume_output
agent2.sinks.f1.sink.rollInterval = 300
agent2.sinks.f1.sink.rollSize = 104857600
agent2.sinks.f1.sink.rollCount = 0

agent2.sources.r1.channels = c1
agent2.sinks.f1.channel = c1

由于性能问题（主要是由于高摄取率），我无法使用hdfs接收器类型：

hadoop flume spark-streaming localhost file-descriptor

来源：https://stackoverflow.com/questions/40361265/using-flume-file-roll-sink-type-stuck-after-few-minutes