python 刮痧靓汤

6ljaweal  于 2022-12-17  发布在  Python
关注(0)|答案(1)|浏览(100)

我正在尝试从这个页面刮链接(https://www.setlist.fm/search?query=nightwish
虽然这段代码检索链接我想要它也回来了一个负载的其他东西我不想要的。
我想要的示例:

  • setlist/nightwish/2022/quarterback-immobilien-arena-leipzig-germany-2bbca8f2.html
  • setlist/nightwish/2022/brose-arena-bamberg-germany-3bf4963.html
  • setlist/nightwish/2022/arena-gliwice-gliwice-poland-3bc9dc7.html

我可以使用美丽汤得到这些链接还是我需要使用正则表达式?

url = 'https://www.setlist.fm/search?query=nightwish'
reqs = requests.get(url)
soup = bs4.BeautifulSoup(reqs.text, 'html.parser')

urls = []
for link in soup.select('a'):
    urls.append(link)
    print(link.get('href'))
wwtsj6pe

wwtsj6pe1#

请检查下面的代码片段是否有用。

import requests
from bs4 import BeautifulSoup

url = 'https://www.setlist.fm/search?query=nightwish'

html_content = requests.get(url).text
soup = BeautifulSoup(html_content, "lxml")

for g_data in soup.find_all('a', {'class': 'link-primary'}, href=True): 
    print(g_data['href'])

相关问题