elasticsearch hadoop获取非索引数据

yks3o0rb  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(408)

我有一个有大量数据的elasticsearch集群。我想将elasticsearch中的所有数据提取到hadoop(hive)中。我使用elasticsearch hadoop驱动程序通过hive外部表从elasticsearch中提取数据,但是它太慢并且总是失败。
我的第一个问题是从现有的elasticsearch集群获取所有数据。第二个问题是每天或每小时复制一次流到hdfs上elasticsearch的所有数据。
如何实现这些目标?
提前谢谢。

zzlelutf

zzlelutf1#

您可以使用hadoop系统作为仓库来存储数据,从中可以将数据推送到elasticsearch,反之亦然。请尝试仅使用elasticsearch来分析当前数据,然后从elasticsearch中删除其余数据。所以每次你想在不同方面做分析的时候,从hadoop中提取数据并使用它。

相关问题