我正在尝试打开和解析一个html页面。在python 2.7.8中我没有问题:
import urllib
url = "https://ipdb.at/ip/66.196.116.112"
html = urllib.urlopen(url).read()
一切都很好。但是我想转到python 3.4,在那里我得到HTTP错误403(Forbidden)。我的代码:
import urllib.request
html = urllib.request.urlopen(url) # same URL as before
File "C:\Python34\lib\urllib\request.py", line 153, in urlopen
return opener.open(url, data, timeout)
File "C:\Python34\lib\urllib\request.py", line 461, in open
response = meth(req, response)
File "C:\Python34\lib\urllib\request.py", line 574, in http_response
'http', request, response, code, msg, hdrs)
File "C:\Python34\lib\urllib\request.py", line 499, in error
return self._call_chain(*args)
File "C:\Python34\lib\urllib\request.py", line 433, in _call_chain
result = func(*args)
File "C:\Python34\lib\urllib\request.py", line 582, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 403: Forbidden
它适用于不使用https的其他URL。
url = 'http://www.stopforumspam.com/ipcheck/212.91.188.166'
是可以的。
3条答案
按热度按时间um6iljoc1#
网站似乎不喜欢Python 3.x的用户代理。
指定
User-Agent
将解决您的问题:注意Python 2.x urllib版本也会收到403状态,但与Python 2.x urllib2和Python 3.x urllib不同,它不会引发异常。
您可以通过以下代码确认:
lztngnrs2#
以下是我在学习python-3时收集到的关于
urllib
的一些笔记:我留着它们以防它们可能派上用场或帮助别人。
如何导入
urllib.request
和urllib.parse
:如何进行GET请求:
如何进行POST请求:
如何发出POST请求(
403 forbidden
响应):如何发送GET请求(
403 forbidden
响应):pqwbnv8z3#
urllib请求HTTP 403错误是由于服务器安全功能阻止了已知的bot
user-agents
而发生的。以下是按可行性(最容易应用的第一个)顺序排列的可能解决方案:-溶液1:-
添加一个不同的
user-agent
,这只是不被认为是一个机器人。如果您连续运行多个请求,您可以选择为请求设置一个短超时。
方案二:-
手动打开URL并接受所有Cookie后,从浏览器添加Cookie。
如果您使用的是chrome,您可以登录
web
url,打开inspector(按F12),然后选择Application选项卡,然后在左侧树中选择Storage下的Cookies溶液3:-
如果需要为多个网站获取cookie,则使用
Session
对象创建request
是明智的,因为它与cookie兼容。附加:-
如果使用
urllib
时SSL证书验证失败感谢以下用户
Question 1
、Question 2
、SSL-Certificate