目的:利用 selenium 获取整页源。
问题:加载的页面不包含内容,只包含JavaScript文件和css文件。
目标站点:https://www.warcraftlogs.com
测试代码(需要“pip install selenium”):
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.warcraftlogs.com/zone/rankings/29#boss=2512&metric=hps&difficulty=3&class=Priest&spec=Discipline")
pageSource = driver.page_source
fileToWrite = open("page_source.html", "w",encoding='utf-8')
fileToWrite.write(pageSource)
fileToWrite.close()
尝试
1.尝试python请求代码,结果相同。它不包含内容,只包含js、css内容
这是一个个人的意见,这个网站考虑隐藏常数数据。
我想做脚本这个网站的数据,
怎么办?
1条答案
按热度按时间wfveoks01#
以下是在加载所有元素后获取页面源代码的方法:
然后可以将页面源代码写入文件等。Selenium文档:https://www.selenium.dev/documentation/