在hadoop上对来自一个gig文件的数据集和小文件的数据集进行二进制搜索

c9x0cxw0  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(154)

我是hadoop新手。我有一个不会被更新的大文件和一堆小文件。我的意图是根据其中记录的哈希值将大文件放在许多不同的数据节点上。每次我搜索一个小文件中的记录时,根据散列值将它们分派给datanodes,然后在本地进行二进制搜索。
我的问题是:
如何根据记录的哈希值将数据节点分配给记录
如何确保二进制搜索在本地执行
注意:我已经通过使用totalorderpartitioner和mapfile解决了这个问题。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题