我使用Selenium渲染网页,然后进行内容提取。然而,我发现selenium返回的内容与我使用Chrome DevTools得到的不同。
我使用的Python代码很简单:
driver = webdriver.Chrome() #.PhantomJS()
driver.get(url)
content = driver.page_source.encode('utf-8')
基本上,我发现我正在查看的字段在大多数情况下不会从Selenium结果中显示出来。它有时会工作,但大多数时候,它只是不呈现真实的的Chrome浏览器所做的事情。我使用的是Mackbook Pro。
1条答案
按热度按时间ippsafx71#
page_source
只会给你你会得到什么,如果你右键点击并击中View Page Source
,这是原始文档。任何通过javascript动态加载的东西,等等,将不会在其中。如果你想在 selenium 中所有你可以做: