如何在hadoop中搜索分布在多个服务器上的大量文件(假设100000个文件)？

oknrviil 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(324)

苹果面试问题示例：
假设您有100000个文件分布在多个服务器上，您想处理所有这些文件？在hadoop中你会怎么做呢？

来源：https://stackoverflow.com/questions/62416396/how-to-search-a-large-number-of-filessuppose-100-000-files-which-are-spread-ac

1条答案

按热度按时间

9rnv2umw1#

首先通过ftp等的sftp将所有文件收集到hdfs/（可能是s3）/hive中。。。。
然后就有了统一的存储hdfs。您可以根据自己的需求应用mapreduce或spark等进行处理。
如果他们拥有各种各样的数据源/服务器，而不是收集它们（称为数据摄取），然后使用任何可用的框架进行数据处理，那么没有人能做任何事情。

赞(0）回复(0）举报 2021-05-29

我来回答

如何在hadoop中搜索分布在多个服务器上的大量文件(假设100000个文件)？

1条答案

相关问题

热门标签

最新问答