我必须解析这个HTML:
import requests
from bs4 import BeautifulSoup
import re
url = 'https://link.com/'
html = requests.get(url)
soup = BeautifulSoup(html.content, 'html.parser')
link = soup.findAll('a', href=re.compile('https://specificlink/'))
输出:
[<a href="https://specificlink" style="display:inline-block;width:192px;"</a>]
我正在寻找专门的链接。在上面的代码后,我得到了正确的链接和链接后也style="*************"
。我怎么才能使它,所以我只得到一个纯链接没有任何进一步的HTML下面?
1条答案
按热度按时间0yg35tkg1#
您可以使用Beautiful Soup文档的“提取所有URL部分”中所示的方法
get()
因此,您可以将代码的
findAll
部分修改为如下所示: