我正在写一个spark程序,它基本上是字符串的rdd。我需要做的基本上是为每个字符串创建一个查询,并基于ElasticSearch索引进行查询。所以本质上查询在字符串上是不同的。我想使用elasticsearch hadoop进行搜索,这样我就可以进行优化。rdd可以很大,我正在寻找任何可能的优化
例如rdd是list[印度,ibm公司,netflix,lebron james]。我们将在所有这些术语上创建更多类似的搜索,并在索引wikipedia上搜索并返回结果。例如,我们将为印度、ibm、netflix和lebron james创建四个类似的查询,并为它们返回点击率
我确实有工作,我可以使用httprestapi调用和批量搜索来获得点击率,但在那里我将自己做优化。我想看看是否可以使用spark elastic连接器来创建查询并以优化的方式进行搜索
1条答案
按热度按时间2exbekwf1#
这个用例是不可能的。ElasticSearch基本上假设一个或多个查询,但不适用于n=batch查询模式