elastisearch hadoop如何在spark程序中进行批量搜索

fkaflof6 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(329)

我正在写一个spark程序，它基本上是字符串的rdd。我需要做的基本上是为每个字符串创建一个查询，并基于ElasticSearch索引进行查询。所以本质上查询在字符串上是不同的。我想使用elasticsearch hadoop进行搜索，这样我就可以进行优化。rdd可以很大，我正在寻找任何可能的优化
例如rdd是list[印度，ibm公司，netflix，lebron james]。我们将在所有这些术语上创建更多类似的搜索，并在索引wikipedia上搜索并返回结果。例如，我们将为印度、ibm、netflix和lebron james创建四个类似的查询，并为它们返回点击率
我确实有工作，我可以使用httprestapi调用和批量搜索来获得点击率，但在那里我将自己做优化。我想看看是否可以使用spark elastic连接器来创建查询并以优化的方式进行搜索

hadoop elasticsearch apache-spark elasticsearch-hadoop

来源：https://stackoverflow.com/questions/46086870/elastisearch-hadoop-how-to-do-a-bulk-search-in-spark-program