我有三个文件在我的hdfs位置,即。 /user/cloudera/test/t1.csv && t2.csv t3.csv
每个文件大小为22mb。
所以我计划把3个文件合并成一个文件 t1t2t3.csv
).
所以我使用了getmerge命令。
hadoop fs-getmerge-nl/user/cloudera/test/t*t1t2t3.csv
它的合并正确,但我的csv文件有一些标题如下
t1.csv t2.csv t3.csv
name,branch name,branch name,branch
user1,cse user2,ece user2,ece
当我使用 hadoop fs -getmerge -nl /user/cloudera/test/t* t1t2t3.csv
头球重复了三次,如下所示。
t1t2t3.csv
name,branch
user1,cse
name,branch
user2,ece
name,branch
user2,ece
我尝试使用“sed'1d'”我可以删除标题,我可以使用下面的命令合并。
cat t1.csv t2.csv t3.csv > t1t2t3.csv.
但是我只想使用getmerge(hadoop文件系统命令)。
而不是下载本地和删除头和合并使用上述命令。
请告诉我如何才能做到这一点?
暂无答案!
目前还没有任何答案,快来回答吧!