python 刮痧靓汤

6ljaweal 于 2022-12-17 发布在 Python

关注(0)|答案(1)|浏览(100)

我正在尝试从这个页面刮链接（https://www.setlist.fm/search?query=nightwish）
虽然这段代码检索链接我想要它也回来了一个负载的其他东西我不想要的。
我想要的示例：

setlist/nightwish/2022/quarterback-immobilien-arena-leipzig-germany-2bbca8f2.html
setlist/nightwish/2022/brose-arena-bamberg-germany-3bf4963.html
setlist/nightwish/2022/arena-gliwice-gliwice-poland-3bc9dc7.html

我可以使用美丽汤得到这些链接还是我需要使用正则表达式？

url = 'https://www.setlist.fm/search?query=nightwish'
reqs = requests.get(url)
soup = bs4.BeautifulSoup(reqs.text, 'html.parser')

urls = []
for link in soup.select('a'):
    urls.append(link)
    print(link.get('href'))

python

来源：https://stackoverflow.com/questions/74824079/web-scraping-with-beautiful-soup

1条答案

按热度按时间

wwtsj6pe1#

请检查下面的代码片段是否有用。

import requests
from bs4 import BeautifulSoup

url = 'https://www.setlist.fm/search?query=nightwish'

html_content = requests.get(url).text
soup = BeautifulSoup(html_content, "lxml")

for g_data in soup.find_all('a', {'class': 'link-primary'}, href=True): 
    print(g_data['href'])

赞(0）回复(0）举报 2022-12-17

我来回答

python 刮痧靓汤

1条答案

相关问题

热门标签

最新问答