用于将文件从本地文件系统移动到hdfs的hadoop工具

axr492tv  于 2021-06-04  发布在  Hadoop
关注(0)|答案(3)|浏览(445)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。

四年前关门了。
改进这个问题
我正在做一个poc的方法导入数据从共享网络驱动器到hdfs。数据将存储在共享驱动器上的不同文件夹中,每个文件夹对应于hdfs上的不同目录。我看了一些流行的工具,但大多数都是用于移动小块数据,而不是整个文件。这些是我找到的工具,还有别的吗?
apacheflume:如果只有少数生产服务器产生数据,并且数据不需要实时写入,那么通过web hdfs或nfs将数据移动到hdfs也是有意义的,尤其是如果写入的数据量相对较少,那么每隔几个小时几gb的文件不会对hdfs造成影响。在这种情况下,规划、配置和部署flume可能不值得。flume实际上是用来实时推送事件的,数据流是连续的,而且其容量相当大[来自safari online的flume手册和flume食谱]
apachekafka:生产者-消费者模型:消息被持久保存在磁盘上,并在集群内复制以防止数据丢失。每个代理可以处理数TB的消息,而不会影响性能。
amazon kinesis:用于实时数据(如flume)的付费版本
webhdfs:提交一个httpput请求,而不自动执行重定向,也不发送文件数据。使用要写入的文件数据的位置头中的url提交另一个httpput请求[http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#create]
开源projects:https网址:github.com/alexholmes/hdfs-file-slurper
我的要求很简单:
轮询一个目录中的文件,如果有文件,将其复制到hdfs,并将文件移动到一个“已处理”的目录中。
我需要对多个目录执行此操作

yx2lnoni

yx2lnoni1#

尝试dtingest,它支持从不同的源(如共享驱动器、nfs、ftp到hdfs)摄取数据。它们还支持定期轮询目录。它应该可以免费试用下载。它是在apacheapex平台上开发的。

rdlzhqv9

rdlzhqv92#

请尝试使用假脱机目录源。您没有提到您的数据量或速度,但我使用运行在边缘节点上的单个flume代理,从本地linux文件系统到kerberized hdfs集群进行了类似的poc,取得了很好的效果。

axkjgtzd

axkjgtzd3#

查看hadoop1.5的toad。最新版本引入了一个受ftp启发的本地到hdfs同步接口,该接口提供了许多选项,可以帮助用户保持本地和hdfs环境的同步。链接到这里的博客文章。

相关问题