我已经获得了访问服务器的权限,该服务器提供了一个文件目录列表,我将下载这些文件并将其导入hdfs。我现在正在做的是用httpget点击服务器并下载html目录列表,然后我使用jsoup解析到我需要下载的文件的所有链接。一旦我有一个完整的清单,我下载每个文件一个接一个,然后导入到hdfs每个。我不相信flume能够读取和解析html来下载文件。有没有更简单更干净的方法来做我描述的事情?
b4lqfgs41#
使用flume,我将执行以下操作:1) 有一个进程grep你的网址和存储转储的html文件到一个目录2) 使用客户反序列化程序配置指向该目录的spooldir源:
deserializer LINE Specify the deserializer used to parse the file into events. Defaults to parsing each line as an event. The class specified must implement EventDeserializer.Builder.
反序列化程序读取html文件并用jsoup提取html文件。然后将提取的位转换成所需格式的多个事件并发送到hdfssink基本上就是这样。
1条答案
按热度按时间b4lqfgs41#
使用flume,我将执行以下操作:
1) 有一个进程grep你的网址和存储转储的html文件到一个目录
2) 使用客户反序列化程序配置指向该目录的spooldir源:
反序列化程序读取html文件并用jsoup提取html文件。然后将提取的位转换成所需格式的多个事件并发送到hdfssink
基本上就是这样。