在hadoop中对输出文本文件进行排序,有没有一种不用排序就可以查看输出的方法?或者使用不同的排序方法?

aoyhnmkz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(317)

所以基本上我使用mapreduce for wordcount来保存hadoop中的文本文件,现在我想查看输出。
目前,这是我在网上看到的唯一命令:

bin/hadoop fs -cat output/part-r-00000 | sort -k 2 -n -r | less

到目前为止,我只是被这个命令搞糊涂了,它只是对输出进行排序吗?我可以查看输出而不进行排序吗?
这个命令是否对wordcount进行排序,否则按字母顺序显示所有内容?你有没有其他方法可以推荐给保存下来的小说文本排序?
我也可以只查看wordcount的输出文件而不进行排序吗?

nhn9ugyo

nhn9ugyo1#

我可以查看输出而不进行排序吗?
只是 -cat

bin/hadoop fs -cat output/part-r-00000 | less

或者将输出文件从hdfs复制到本地fs并使用它

bin/hadoop fs -get output/part-r-00000  /tmp/output

这个命令是否对wordcount进行排序,否则按字母顺序显示所有内容? sort -k 2 -n -r :对第2列排序( -k 2 )数字( -n )相反地( -r )命令。
假设第二列包含count,这会将单词从最多的出现次数排序到最少的出现次数。至于不同的分类方法,我觉得这是更好的。如果要按字母顺序对内容排序,只需使用 sort . 请参阅分拣手册。

相关问题