苹果面试问题示例:假设您有100000个文件分布在多个服务器上,您想处理所有这些文件?在hadoop中你会怎么做呢?
9rnv2umw1#
首先通过ftp等的sftp将所有文件收集到hdfs/(可能是s3)/hive中。。。。然后就有了统一的存储hdfs。您可以根据自己的需求应用mapreduce或spark等进行处理。如果他们拥有各种各样的数据源/服务器,而不是收集它们(称为数据摄取),然后使用任何可用的框架进行数据处理,那么没有人能做任何事情。
1条答案
按热度按时间9rnv2umw1#
首先通过ftp等的sftp将所有文件收集到hdfs/(可能是s3)/hive中。。。。
然后就有了统一的存储hdfs。您可以根据自己的需求应用mapreduce或spark等进行处理。
如果他们拥有各种各样的数据源/服务器,而不是收集它们(称为数据摄取),然后使用任何可用的框架进行数据处理,那么没有人能做任何事情。