使用Vim过滤旧书签URL列表以排除不再使用的网站

yk9xbfzb 于 2023-01-13 发布在其他

关注(0)|答案(1)|浏览(115)

我试图学习更多关于Vim和Linux命令行的知识;我正在做的项目是
正在尝试将浏览器导出的bookmarks.html转换为仍有效的URL***的纯文本列表。***
1.首先，我使用lynx -dump -listonly bookmarks.html > bookmarks将HTML格式设置为纯文本：

1. https://example.com/vim-is-cool.html
   2. https://example.com/index.html

1.使用Vim去除数字和前导空格（:% s/.\+ /）
1.使用Vim删除除顶级域（:%! cut -d'/' -f1,2,3）以外的所有内容
1.使用Vim删除:sort u的重复项
1.要测试其中一个链接，我将用途：

curl -I https://www.example.com | grep HTTP | sed 's/HTTP\/1\.1 //g'
200 OK

现在，我想：
1.通过相同的命令检查短URL的候选列表（我不知道如何对Vim缓冲区中的每一行迭代相同的命令）
1.过滤包含所有完整URL的文件，根据cURL是否为短URL获得200 OK（这部分也超出了我的能力范围）
1.将剩余的完整URL列表写入bookmarks4（我很可能可以处理这个问题）
如果可能的话，我希望在不使用shell/bash编写脚本或离开Vim的情况下完成所有这些工作。

vim

来源：https://stackoverflow.com/questions/75067844/filter-list-of-old-bookmark-urls-to-exclude-websites-no-longer-in-service-using

1条答案

按热度按时间

8yparm6h1#

这可能对您有用（所有GNU实用程序都使用bash）：

lynx -dump -listonly bookmarks.html |
grep -o 'https\?://[^/]*' |
sort -u |
parallel -k 'curl -I -m2 {} |& grep -q "HTTP/[0-9.]\+ 200" && echo {}' >bookmarks4

使用lynx设置链接格式。
使用grep格式化url。
使用sort可以排序和删除重复项。
使用parallel用curl检查url，用grep检查输出是否有200回复，将符合要求的url输出到bookmarks4。

赞(0）回复(0）举报 2023-01-13

我来回答

使用Vim过滤旧书签URL列表以排除不再使用的网站

1条答案

相关问题

热门标签

最新问答