我正试图从中复制一些日志文件 local
至 HDFS
使用 flume-ng
. 这个 source
是 /home/cloudera/flume/weblogs/
以及 sink
是 hdfs://localhost:8020/flume/dump/
. cron作业将日志从tomcat服务器复制到 /home/cloudera/flume/weblogs/
我想记录要复制到的文件 HDFS
因为文件在 /home/cloudera/flume/weblogs/
使用 flume-ng
. 下面是我创建的conf文件:
agent1.sources= local
agent1.channels= MemChannel
agent1.sinks=HDFS
agent1.sources.local.type = ???
agent1.sources.local.channels=MemChannel
agent1.sinks.HDFS.channel=MemChannel
agent1.sinks.HDFS.type=hdfs
agent1.sinks.HDFS.hdfs.path=hdfs://localhost:8020/flume/dump/
agent1.sinks.HDFS.hdfs.fileType=DataStream
agent1.sinks.HDFS.hdfs.writeformat=Text
agent1.sinks.HDFS.hdfs.batchSize=1000
agent1.sinks.HDFS.hdfs.rollSize=0
agent1.sinks.HDFS.hdfs.rollCount=10000
agent1.sinks.HDFS.hdfs.rollInterval=600
agent1.channels.MemChannel.type=memory
agent1.channels.MemChannel.capacity=10000
agent1.channels.MemChannel.transactionCapacity=100
我无法理解:
1) 它的价值是什么 agent1.sources.local.type = ???
2) 在哪里提到 source
路径 /home/cloudera/flume/weblogs/
在上面的conf文件中?3) 上面的conf文件中有什么我遗漏的吗?
请告诉我这些。
1条答案
按热度按时间5cg8jx4n1#
您可以使用:
exec源代码并使用命令(例如,在gnu/linux上的cat或tail在您的文件上)
或一个后台处理目录源,用于读取目录中的所有文件