gcp dataproc和elasticsearch

2w3kk1z5 于 2021-06-14 发布在 ElasticSearch

关注(0)|答案(1)|浏览(507)

我在云中有一个服务器（隐藏在vpn后面），我在这个服务器上运行单节点elasticsearch集群。在elasticsearch的这个示例中，我有一个索引（假设它被命名为metrics data）——它占用8gb的大小。
我想部署gcpdataproc集群，并使用spark和jupyter对来自这个远程elasticsearch集群的度量数据索引执行一些分析。
最简单的方法是什么？

elasticsearch apache-spark google-cloud-platform google-cloud-dataproc jupyter

来源：https://stackoverflow.com/questions/53858733/gcp-dataproc-with-elasticsearch

1条答案

按热度按时间

tkqqtvp11#

好吧，所以我决定：
使用将索引从elasticsearch群集转储到本地计算机 elasticdump :

elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
    --output=./data/metrics-data.json --sourceOnly --limit=10000

将文件上载到google云存储（gcs）：

for i in ./data/*; do gsutil cp $i gs://bucket-name/; done

使用云存储连接器（默认安装在gcp dataproc上）将数据加载到spark中
如果 elasticdump 直接输出到gcp（就像amazons3一样）。
不知道这是不是最简单的，但对我有用。

赞(0）回复(0）举报 2021-06-15

我来回答

gcp dataproc和elasticsearch

1条答案

相关问题

热门标签

最新问答