使用flume从同一网络上的远程服务器(没有flume)摄取实时日志数据

mcdcgff0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(367)

我的服务器x安装了hadoop和flume,而服务器y两者都没有,但在同一个网络上。
服务器y当前将数据存储到一个日志文件中,该文件连续写入两个日志文件,直到在一天结束时附加一个日期戳并启动一个新的日志文件。
目标是使用flume将日志从服务器y实时流式传输到服务器x,处理数据并将其放入hdfs中。
我相信最好的方法是让syslog守护进程在服务器y中通过tcp转发这些事件,但是在组织内部有很多困难需要解决,甚至要知道是否可以做到这一点。另一个选项是(选项2:)以某种方式读取服务器y目录中的文件,或者(选项3:)将目录装载到服务器x,将目录视为假脱机目录。选项2的问题是服务器y没有安装flume,这样做是不可能的。选项2和3的问题是,传入的信息可能不是实时的,并且在每天结束时的转换过程中可能会丢失数据。还有一个身份验证问题,必须使用单独的用户名和密码登录到服务器y。显然,我们无法将信息硬编码到连接配置中。
我的主要问题是:flume是否需要安装在源服务器上才能工作?flume代理能否在serverx上以独占方式运行?哪种选择比较理想?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题