我正在尝试从这个页面刮链接(https://www.setlist.fm/search?query=nightwish)
虽然这段代码检索链接我想要它也回来了一个负载的其他东西我不想要的。
我想要的示例:
- setlist/nightwish/2022/quarterback-immobilien-arena-leipzig-germany-2bbca8f2.html
- setlist/nightwish/2022/brose-arena-bamberg-germany-3bf4963.html
- setlist/nightwish/2022/arena-gliwice-gliwice-poland-3bc9dc7.html
我可以使用美丽汤得到这些链接还是我需要使用正则表达式?
url = 'https://www.setlist.fm/search?query=nightwish'
reqs = requests.get(url)
soup = bs4.BeautifulSoup(reqs.text, 'html.parser')
urls = []
for link in soup.select('a'):
urls.append(link)
print(link.get('href'))
1条答案
按热度按时间wwtsj6pe1#
请检查下面的代码片段是否有用。