curl 获取URL列表的HTTP状态码的脚本？

xt0899hw 于 2023-11-19 发布在其他

关注(0)|答案(9)|浏览(120)

我有一个URL列表，我需要检查，看看他们是否仍然工作或没有。我想写一个bash脚本，为我这样做。
我只需要返回的HTTP状态码，即200、404、500等等。

编辑 * 请注意，如果页面显示“404 not found”但返回200 OK消息，则存在问题。这是Web服务器配置错误，但您可能必须考虑这种情况。

有关更多信息，请参见Check if a URL goes to a page containing the text "404"

curl

来源：https://stackoverflow.com/questions/6136022/script-to-get-the-http-status-code-of-a-list-of-urls

9条答案

按热度按时间

plupiseo1#

Curl有一个特定的选项--write-out：

$ curl -o /dev/null --silent --head --write-out '%{http_code}\n' <url>
200

字符串

-o /dev/null丢弃通常的输出
--silent扔掉进度表
--head发出HEAD HTTP请求，而不是GET请求
--write-out '%{http_code}\n'打印所需的状态代码

要将其 Package 在一个完整的Bash脚本中：

#!/bin/bash
while read LINE; do
  curl -o /dev/null --silent --head --write-out "%{http_code} $LINE\n" "$LINE"
done < url-list.txt

型
（眼尖的读者会注意到，这对每个URL使用了一个curl进程，这会增加fork和TCP连接的代价。如果多个URL组合在一个curl中，速度会更快，但没有空间来写curl需要做的可怕的重复选项。）

赞(0）回复(0）举报 2023-11-19

slsn1g292#

wget --spider -S "http://url/to/be/checked" 2>&1 | grep "HTTP/" | awk '{print $2}'

字符串
仅为您打印状态代码

赞(0）回复(0）举报 2023-11-19

hc2pp10m3#

扩展Phil已经提供的答案。如果使用xargs进行调用，在bash中添加并行性是一件轻而易举的事情。
代码如下：

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' < url.lst

字符串

-n1*：仅使用一个值（来自列表）作为curl调用的参数
-P10*：随时保持10个curl进程存活（即10个并行连接）

检查curl手册中的write_out参数，以获取更多可以使用它提取的数据（时间等）。
如果它帮助别人，这是我目前使用的电话：

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective};%{http_code};%{time_total};%{time_namelookup};%{time_connect};%{size_download};%{speed_download}\n' < url.lst | tee results.csv

型
它只是将一堆数据输出到一个CSV文件中，这个文件可以导入任何办公工具。

赞(0）回复(0）举报 2023-11-19

wdebmtf24#

这依赖于广泛可用的wget，几乎无处不在，甚至在Alpine Linux上也是如此。

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

字符串
解释如下：
--quiet个
关闭Wget的输出。

来源- wget手册页 *

--spider个
[...]它不会下载页面，只要检查它们是否在那里。[...]

来源- wget手册页 *

--server-response个
打印HTTP服务器发送的头和FTP服务器发送的响应。

来源- wget手册页 *

关于--server-response，他们没有说的是，这些头输出被打印到标准错误（sterr），因此需要将redirect打印到stdin。
将输出发送到标准输入，我们可以将其通过管道发送到awk以提取HTTP状态码。该代码为：

第二个（$2）非空字符组：{$2}
在header的第一行：NR==1

因为我们想打印它... {print $2}。

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

型

赞(0）回复(0）举报 2023-11-19

bnl4lu3b5#

使用curl只获取HTTP头（而不是整个文件）并解析它：

$ curl -I  --stderr /dev/null http://www.google.co.uk/index.html | head -1 | cut -d' ' -f2
200

字符串

赞(0）回复(0）举报 2023-11-19

bcs8qyzn6#

wget -S -i *file*将从文件中的每个URL获取头。
通过grep过滤状态代码。

赞(0）回复(0）举报 2023-11-19

ix0qys7i7#

我发现了一个用Python编写的工具“webchk”。返回一个URL列表的状态码。https://pypi.org/project/webchk/
输出如下所示：

▶ webchk -i ./dxieu.txt | grep '200'
http://salesforce-case-status.dxi.eu/login ... 200 OK (0.108)
https://support.dxi.eu/hc/en-gb ... 200 OK (0.389)
https://support.dxi.eu/hc/en-gb ... 200 OK (0.401)

字符串
希望有帮助！

赞(0）回复(0）举报 2023-11-19

wr98u20j8#

请记住，curl并不总是可用的（特别是在容器中），这个解决方案存在一些问题：

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

字符串
这将返回退出状态0，即使URL不存在。
或者，这里是一个合理的使用wget的容器健康检查：

wget -S --spider -q -t 1 "${url}" 2>&1 | grep "200 OK" > /dev/null

型
虽然它可能不会给予您确切的状态，但它至少会给予您一个有效的基于退出代码的健康响应（即使在端点上有重定向）。

赞(0）回复(0）举报 2023-11-19

xesrikrc9#

由于https://mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P（xargs中并行作业的输出有混合的风险），我将使用GNU Parallel而不是xargs来并行化：

cat url.lst |
  parallel -P0 -q curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' > outfile

字符串
在这种情况下，使用xargs可能是安全的，因为输出很短，所以使用xargs的问题是，如果后来有人修改代码来做更大的事情，它将不再安全。或者如果有人读到这个问题，认为他可以用其他东西替换curl，那么这也可能是不安全的。
示例url.lst：

https://fsfe.org
https://www.fsf.org/bulletin/2010/fall/gnu-parallel-a-design-for-life
https://www.fsf.org/blogs/community/who-actually-reads-the-code
https://publiccode.eu/

型

赞(0）回复(0）举报 2023-11-19

我来回答

curl 获取URL列表的HTTP状态码的脚本？

9条答案

相关问题

热门标签

最新问答