我有一个csv格式的hdfs大数据集,我需要批量上传到elasticsearch服务器。有没有办法使用unix命令行从hdfs批量上传这些数据?
我在Solr做过这个(https://wiki.apache.org/solr/updatecsv)使用一些简单的shell命令,如:
hadoop fs -ls <dir-name> | awk '{ print $NF }'|
while read inDir ; do hadoop fs -cat $inDir |
parallel --pipe --block 50000 curl -v --data-binary @- -H
"Content-type:text/plain” ‘http://localhost:8983/solr/update/csv?commit=false\&fieldnames=name,address,city' ;
done
有没有类似的方法/工具可以从hdfs文件中读取数据,将其转换为格式良好的json,并将其流式传输到elasticsearch服务器进行批量索引?另一个选择是我使用java/python来做这个处理。我只是想探索是否有一套简单的unix工具可以用来实现同样的功能。
谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!