将hdfs中的数据批量上传到elasticsearch服务器

8i9zcol2  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(253)

我有一个csv格式的hdfs大数据集,我需要批量上传到elasticsearch服务器。有没有办法使用unix命令行从hdfs批量上传这些数据?
我在Solr做过这个(https://wiki.apache.org/solr/updatecsv)使用一些简单的shell命令,如:

hadoop fs -ls <dir-name> | awk '{ print $NF }'| 
while read inDir ; do hadoop fs -cat $inDir | 
parallel --pipe --block 50000 curl -v --data-binary @- -H 
"Content-type:text/plain” ‘http://localhost:8983/solr/update/csv?commit=false\&fieldnames=name,address,city' ; 
done

有没有类似的方法/工具可以从hdfs文件中读取数据,将其转换为格式良好的json,并将其流式传输到elasticsearch服务器进行批量索引?另一个选择是我使用java/python来做这个处理。我只是想探索是否有一套简单的unix工具可以用来实现同样的功能。
谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题