不使用hive的hdfs中的数据清理

5w9g7ksd  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(348)

有没有一个选项可以让我使用hadoop fs-sed,本质上我是在尝试直接在hdfs中将数据中的“\”替换为“something”,而不必将数据引入本地并加载。
目前,我正在使用getmerge将数据引入本地,清除数据,并使用copyfromlocal将其加载回hdfs。这样要花很多时间。那么,有没有更简单的解决方案或更快的方法来替换字符数据呢。

kq4fsx7k

kq4fsx7k1#

不清楚你为什么要用Hive。
pig或spark是更好的选择,它们不需要数据的显式模式。
见Pig REPLACE 功能
在任何情况下,hadoop cli都没有 sed 选项
另一个选择是nifi,但是这需要更多的设置,而且对于这个任务来说是过度的。

相关问题