如何在hadoop中搜索分布在多个服务器上的大量文件(假设100000个文件)?

oknrviil  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(324)

苹果面试问题示例:
假设您有100000个文件分布在多个服务器上,您想处理所有这些文件?在hadoop中你会怎么做呢?

9rnv2umw

9rnv2umw1#

首先通过ftp等的sftp将所有文件收集到hdfs/(可能是s3)/hive中。。。。
然后就有了统一的存储hdfs。您可以根据自己的需求应用mapreduce或spark等进行处理。
如果他们拥有各种各样的数据源/服务器,而不是收集它们(称为数据摄取),然后使用任何可用的框架进行数据处理,那么没有人能做任何事情。

相关问题