gcp dataproc和elasticsearch

2w3kk1z5  于 2021-06-14  发布在  ElasticSearch
关注(0)|答案(1)|浏览(507)

我在云中有一个服务器(隐藏在vpn后面),我在这个服务器上运行单节点elasticsearch集群。在elasticsearch的这个示例中,我有一个索引(假设它被命名为metrics data)——它占用8gb的大小。
我想部署gcpdataproc集群,并使用spark和jupyter对来自这个远程elasticsearch集群的度量数据索引执行一些分析。
最简单的方法是什么?

tkqqtvp1

tkqqtvp11#

好吧,所以我决定:
使用将索引从elasticsearch群集转储到本地计算机 elasticdump :

elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
    --output=./data/metrics-data.json --sourceOnly --limit=10000

将文件上载到google云存储(gcs):

for i in ./data/*; do gsutil cp $i gs://bucket-name/; done

使用云存储连接器(默认安装在gcp dataproc上)将数据加载到spark中
如果 elasticdump 直接输出到gcp(就像amazons3一样)。
不知道这是不是最简单的,但对我有用。

相关问题