我是一个初级python程序员。为了练习,我试着从网页上获取文章标题及其URL的列表。到目前为止,我已经想出了以下代码:
import requests
from bs4 import BeautifulSoup as BS
with requests.session() as r:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0'}
r = requests.get('https://0xdf.gitlab.io', verify=False, headers=headers)
response = r.text
soup = BS(response, 'html.parser')
tags = soup.find_all('a')
for tag in tags:
links = tag.get('href')
if links[0] == '/':
appended_link = 'https://0xdf.gitlab.io' + links
print(appended_link)
elif links[0] == '#':
pass
else:
print(links)
然而,它没有提取我感兴趣的东西。我想要标题的文章旁边的完整网址。
谢谢
1条答案
按热度按时间d6kp6zgx1#
您可以使用以下示例从该页面+url中提取标题:
印刷品: