使用http源代码在具有相同扩展名的hdfs中保存文件(不同的扩展名)

55ooxyrt  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(358)

我需要创建一个数据管道,其中源是http,接收器是hdfs来发布数据和文件。问题是我想保存的文件的扩展名与它们最初发送到http源的扩展名相同。
我用下面的脚本创建了一个流
stream create httptohdfs--定义“http | hdfs”--部署
但是当我上传.gzip/.xml/.json格式的文件时,它将文件存储在.txt中
我只想通过http源代码复制hdfs中的文件,springxd可以吗?

z9gpfhce

z9gpfhce1#

这个 hdfs sink用于将基于文本的流写入hdfs。它接受一个名为 --fileExtension 您可以在其中指定文件扩展名。这个接收器不是用来复制一个二进制文件的,但是你必须使用一个定制的批处理作业来完成这个任务,并且让你的http源在一个文件可用时向批处理作业发送一条消息。提供了批处理作业 filepollhdfs 这对csv文件也有类似的作用。

相关问题