文本文件
https://www.google.com/1/
https://www.google.com/2/
https://www.google.com
https://www.bing.com
https://www.bing.com/2/
https://www.bing.com/3/
预期输出:
https://www.google.com/1/
https://www.bing.com
我尝试了什么
awk -F'/' '!a[$3]++' $file;
产出
https://www.google.com/1/
https://www.google.com
https://www.bing.com
https://www.bing.com/2/
我已经尝试了各种代码,没有一个工作的预期。我只想挑选一个唯一的域名网址每个域名从列表中。
请告诉我如何使用Bash脚本或Python来完成。
PS:我想从列表中过滤并保存完整的URL,而不仅仅是根域。
2条答案
按热度按时间oaxa6hgo1#
以
awk
和/
作为字段分隔符:如果您的文件包含Windows换行符(回车),那么我建议:
输出:
yzckvree2#
Python解决方案,使用迭代工具配方和
urllib.parse.urlparse
之一,令file.txt
内容为那么
创建包含以下内容的文件
file_uniq.txt