对于hdfs文件夹,在一分钟内处理数百个下载请求的最有效解决方案是什么

zz2j4svz  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(396)

在我的公司,我们有一个不断学习的过程。每隔5-10分钟,我们在hdfs中创建一个新模型。模型是包含多个文件的文件夹:
1g型(二进制文件)
模型元数据1k(文本文件)
模型功能1k(csv文件)。。。
另一方面,我们有数百个模型服务示例,需要在5-10分钟内将模型下载到本地文件系统并从中服务。目前,我们使用的是来自服务(java文件系统客户端)的webfs,但它可能会给hadoop集群带来负载,因为它会将请求重定向到具体的数据节点。
我们考虑使用httpfs服务。它有缓存功能吗?所以第一个请求将获得一个文件夹来服务内存,而下一个请求将使用已经下载的结果?
还有什么技术/解决方案可以用于这种用例?

t8e9dugd

t8e9dugd1#

我们找到了一个很好的解决办法。
它可以用于hadoop以减少读取负载,也可以用于google/s3 bucket以降低成本。
我们只需设置几个ngnix服务器,并将它们配置为一个带有文件缓存的代理2分钟。
这样,只有ngnix机器才能从hadoop集群下载数据。
所有的服务机器(可能有几百台)都会从nginx服务器中提取数据,这些数据已经在那里缓存了

相关问题