使用mapreduce搜索hdfs中的文件

5jdjgkvh  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(304)

我对hadoop非常陌生,想知道如何使用mapreduce在hdfs中搜索指定的文件名?假设我有数千兆兆字节的图像Map数据,这些数据是由它们的纬度/经度坐标命名的。如果提供给定的纵横坐标,如何使用mapreduce快速查找该文件?
我四处寻找,发现有一种方法是用管道把它传给格雷普:

hdfs dfs -ls -R / | grep [search_term]

但对于许多大数据文件来说,这将是非常缓慢的。

csbfibhn

csbfibhn1#

以下是我的观点:
不建议在hdfs中存储太多的文件。检查此链接:namenode file no.limit
使用mr搜索效率不高。尤其是数据没有分区或索引时。
最好使用keyvalue存储或像elastic search这样的分布式搜索工具(考虑到我对您的用例了解有限)

相关问题