从描述中我并不完全清楚eshadoop是什么。这仅仅是一个将数据从es集群转移到hdfs以进行hadoop分析的“连接器”吗?如果是这样,为什么不直接使用hbase进行低延迟的文本查询呢?es hadoop的安装与普通es不同吗?请澄清一下。谢谢。
hs1ihplo1#
es-hadoop更接近于hadoop生态系统与es之间的连接。它不是一个单独的es版本。基本上,它改进了hadoop生态系统应用程序与es的集成。在我的组织中,我们使用此功能有两个目的:在将数据索引到es之前,我们使用spark对数据进行分析并执行相关聚合,以减少应该在es上执行的索引量。es hadoop帮助我们直接从spark数据结构索引到es。我们用一行代码开始索引过程,不需要自己编写索引程序(该特性是可配置的,并且您可以灵活地索引数据(不管您喜欢什么)。在我们的组织中,我们使用es作为我们的近实时分析集群。es中的数据放置方式将为我们的客户提供最佳性能。有时(通常当我们对一些新特性有了想法时),我们必须从es获取数据并对数据执行一些复杂的处理。在这些情况下,我们也可以在一行代码中从es数据创建spark数据结构。因此,es-hadoop更接近成为一个编写良好的连接器。您仍然需要将数据从es集群传输到hadoop。我不确定与hbase的比较,你不能真正比较hbase的功能,它是一个关键的价值商店,而es是一个通用搜索引擎+在上一个版本中实现了非常好的分析功能。在我看来,我们正在使用不同的工具来处理不同的问题。
1条答案
按热度按时间hs1ihplo1#
es-hadoop更接近于hadoop生态系统与es之间的连接。它不是一个单独的es版本。
基本上,它改进了hadoop生态系统应用程序与es的集成。在我的组织中,我们使用此功能有两个目的:
在将数据索引到es之前,我们使用spark对数据进行分析并执行相关聚合,以减少应该在es上执行的索引量。es hadoop帮助我们直接从spark数据结构索引到es。我们用一行代码开始索引过程,不需要自己编写索引程序(该特性是可配置的,并且您可以灵活地索引数据(不管您喜欢什么)。
在我们的组织中,我们使用es作为我们的近实时分析集群。es中的数据放置方式将为我们的客户提供最佳性能。有时(通常当我们对一些新特性有了想法时),我们必须从es获取数据并对数据执行一些复杂的处理。在这些情况下,我们也可以在一行代码中从es数据创建spark数据结构。
因此,es-hadoop更接近成为一个编写良好的连接器。您仍然需要将数据从es集群传输到hadoop。
我不确定与hbase的比较,你不能真正比较hbase的功能,它是一个关键的价值商店,而es是一个通用搜索引擎+在上一个版本中实现了非常好的分析功能。在我看来,我们正在使用不同的工具来处理不同的问题。