用于将文件从本地文件系统移动到hdfs的hadoop工具

axr492tv 于 2021-06-04 发布在 Hadoop

关注(0)|答案(3)|浏览(445)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

四年前关门了。
改进这个问题
我正在做一个poc的方法导入数据从共享网络驱动器到hdfs。数据将存储在共享驱动器上的不同文件夹中，每个文件夹对应于hdfs上的不同目录。我看了一些流行的工具，但大多数都是用于移动小块数据，而不是整个文件。这些是我找到的工具，还有别的吗？
apacheflume：如果只有少数生产服务器产生数据，并且数据不需要实时写入，那么通过web hdfs或nfs将数据移动到hdfs也是有意义的，尤其是如果写入的数据量相对较少，那么每隔几个小时几gb的文件不会对hdfs造成影响。在这种情况下，规划、配置和部署flume可能不值得。flume实际上是用来实时推送事件的，数据流是连续的，而且其容量相当大[来自safari online的flume手册和flume食谱]
apachekafka：生产者-消费者模型：消息被持久保存在磁盘上，并在集群内复制以防止数据丢失。每个代理可以处理数TB的消息，而不会影响性能。
amazon kinesis：用于实时数据（如flume）的付费版本
webhdfs：提交一个httpput请求，而不自动执行重定向，也不发送文件数据。使用要写入的文件数据的位置头中的url提交另一个httpput请求[http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#create]
开源projects:https网址：github.com/alexholmes/hdfs-file-slurper
我的要求很简单：
轮询一个目录中的文件，如果有文件，将其复制到hdfs，并将文件移动到一个“已处理”的目录中。
我需要对多个目录执行此操作

hadoop hdfs apache-apex

来源：https://stackoverflow.com/questions/25254423/hadoop-tools-for-moving-files-from-local-file-system-to-hdfs