如何在我的服务中快速/实时地提供来自hdfs的数据?

vc9ivgsu  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(411)

目前,在我的公司,每个需要从hdfs向用户提供数据的团队都会为该任务创建自己的工具。
我们希望创建一个通用工具,以便通过http从hdfs到myservices快速/实时地提供数据。泛型的意思是,该工具应该只为添加到配置中的所选服务提供数据,这应该是用户使用该泛型工具必须执行的唯一操作。这个新工具应该被告知hdfs中出现的新数据,然后调用某种将数据从hdfs移动到快速存储器的作业。
应用程序可以每天或每小时更新数据,但每个服务可以在不同的时间更新数据(服务a可以每天早上7点更新,服务b可以每小时更新)。我认为我们不想使用任何模式,只想使用键和分区日期来访问数据。不需要查询。
我们还不知道我们的工具需要承受多少容量或每秒的读/写。
我们已经为我们的问题制定了一些解决方案,但是我们很感兴趣的是,在开源中是否已经有类似的解决方案,或者你们中是否有人有过类似的用例?这是我们对建筑的建议:建筑

inn6fuwd

inn6fuwd1#

如果您需要通过http访问hdfs,那么webhdfs可能适合您的用例。您可以添加一个缓存层来加速对热文件的请求,但我认为只要您使用hdfs,对于任何尚未缓存的文件,您就永远不会得到亚秒级的响应。你必须决定你是否可以接受。
我不确定webhdfs处理大文件的效果如何。
https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/webhdfs.html

相关问题