从远程服务器目录下载文件并导入hdfs

7bsow1i6  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(443)

我已经获得了访问服务器的权限,该服务器提供了一个文件目录列表,我将下载这些文件并将其导入hdfs。我现在正在做的是用httpget点击服务器并下载html目录列表,然后我使用jsoup解析到我需要下载的文件的所有链接。一旦我有一个完整的清单,我下载每个文件一个接一个,然后导入到hdfs每个。我不相信flume能够读取和解析html来下载文件。有没有更简单更干净的方法来做我描述的事情?

b4lqfgs4

b4lqfgs41#

使用flume,我将执行以下操作:
1) 有一个进程grep你的网址和存储转储的html文件到一个目录
2) 使用客户反序列化程序配置指向该目录的spooldir源:

deserializer    LINE    Specify the deserializer used to parse the file into events. Defaults to parsing each line as an event. The class specified must implement EventDeserializer.Builder.

反序列化程序读取html文件并用jsoup提取html文件。然后将提取的位转换成所需格式的多个事件并发送到hdfssink
基本上就是这样。

相关问题