mapreduce查询预处理：hadoop还是分布式系统

xtfmy6hx 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(416)

我试图通过预处理所有结果来优化搜索引擎的性能。我们有大约5万个搜索词。我计划先搜索这5万个词，然后保存在内存中（memcached/redis）。在我的例子中，搜索所有5万个术语需要一天以上的时间，因为我们进行了深层语义搜索。所以我计划将搜索（预处理）分布在几个节点上。我在考虑使用hadoop。我的输入量很小。即使搜索词总数超过50k，也可能少于1mb。但是搜索每一项都要花费一分钟的时间，即更多的是面向计算，而不是面向数据。所以我想知道我是应该使用hadoop还是构建自己的分布式系统。我记得读过一篇文章，hadoop主要是在输入非常大的情况下使用的。请告诉我怎么做。
我读到hadoop以块大小读取数据。i、每个jvm/Map器64mb。有没有可能使它的行数而不是块大小。示例：每个Map器获得1000行而不是64mb。有没有可能做到这一点。

hadoop mapreduce distributed-computing search-engine

来源：https://stackoverflow.com/questions/14385561/query-preprocessing-hadoop-or-distributed-system