使用selenium与网页交互、嵌套网页爬取

x33g5p2x  于2021-09-19 转载在 其他  
字(3.5k)|赞(0)|评价(0)|浏览(331)

前进、后退、切换选项卡

from selenium.webdriver import Chrome
import time

创建浏览器对象

driver = Chrome()

依次进入若干个网站

driver.get('https://www.baidu.com')
time.sleep(2)
driver.get('https://www.jd.com')
time.sleep(2)
driver.get('https://www.runoob.com')
前进后退
driver.back()
time.sleep(2)
driver.forward()
切换选项卡
driver.get('https://movie.douban.com/')
music = driver.find_element_by_css_selector('.global-nav-items > ul > li:nth-child(4)>a')
url = music.get_attribute('href')
print(url)
music.click()

time.sleep(2)
# 切换选项卡
driver.switch_to.window(driver.window_handles[0])
time.sleep(2)
driver.switch_to.window(driver.window_handles[1])
driver.get(url)
# driver.quit()

等待

from selenium.webdriver import Chrome
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
driver = Chrome()
driver.get('https://music.douban.com/')
隐式等待

如果设置了隐式等待时间那么浏览器对象通过find_element相关方法获取标签时在找不到对应的标签时

不会马上报错而是在指定时间内不断尝试获取该标签若超过指定时间还是无法获取则报错

# 设置隐式等待时间只需要设置一次,全局有效
driver.implicitly_wait(2)   #等待2秒(等待期间定时去查找)
显式等待 - 等到某个条件成立

1)、创建等待对象:WebDriverWait(浏览器对象,超时时间,检测时间间隔(默认 = 500ms))

2)、等待对象.until(条件) - 等到指定条件为True获取对应的标签或结果(布尔值)

​ 等待对象.until_not(条件) - 等到指定条件为False获取对应的标签或结果(布尔值)

常见的条件:
wait = WebDriverWait(driver,5)

# EC.presence_of_all_elements_located((By.标签获取方式,获取方式值)) --- 传一个元组 判断某个元素是否被加到dom树里(判断某个标签是否加载到网页里,不一定可见)
wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'css选择器')))   #返回标签

# EC.visibility_of_element_located() --- 判断某个标签是否可见(没有隐藏并且元素的高度与宽度不为0)
wait.until(EC.visibility_of_element_located((By.ID,'id属性值')))   #返回标签

# EC.text_to_be_present_in_element() --- 判断某个标签内容是否包含了预期的字符串
wait.until(EC.text_to_be_present_in_element((By.ID,'id属性值'),'预期的字符串'))  # 存在时获取,返回布尔值
wait.until_not(EC.text_to_be_present_in_element((By.ID,'id属性值'),'预期的字符串'))  #不存在时获取,返回布尔值

# EC.text_to_be_present_in_element_value() --- 判断某个标签中的value属性是否包含了预期的字符串
wait.until(EC.text_to_be_present_in_element_value())   #返回布尔值

# EC.element_to_be_clickable() --- 判断某个标签是否可以点击,条件成立时返回对应的标签
wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'css选择器')))

滚动

from selenium.webdriver import Chrome,ChromeOptions
from selenium.webdriver.common.keys import Keys
import time
options = ChromeOptions()
# 1) 添加取消测试环境选项
options.add_experimental_option("excludeSwitches", ['enable-automation', 'enable-logging'])
# 2) 取消图片加载
options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

搜索

browser = Chrome()
browser.get('https://www.jd.com')

search = browser.find_element_by_id('key')
search.send_keys('电脑')
search.send_keys(Keys.ENTER)

滚动

max_height = 8400  #最大高度在浏览器具体页面获取
height = 500
while(1):
    browser.execute_script(f'window.scrollTo(0,{height})')  #核心
    height += 500
    time.sleep(1)
    if(height > max_height):
        break

页面最大高度获取方式:

网页嵌套 - 网易邮箱自动登录

前端在实现网页功能的时候可能出现网页中嵌套网页的现象,如果要在一个网页中嵌套另外一个网页必须使用

iframe标签

selenium爬取的时候通过浏览器对象默认获取到的是最外层的HTML对应的网页,如果要获取嵌套网页中的内容

必须使用switch_to来切换frame

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
browser = Chrome()
browser.get('https://mail.163.com/')

切换HTML页面

frame = browser.find_element_by_css_selector('#loginDiv>iframe')
browser.switch_to.frame(frame)
user_name = browser.find_element_by_css_selector('.j-inputtext.dlemail.j-nameforslide')
user_name.send_keys('zzx')

password = browser.find_element_by_css_selector('.j-inputtext.dlpwd')
password.send_keys('123456')

enter = browser.find_element_by_css_selector('#dologin')
enter.click()

爬虫流程

1、用requests + 网页地址

2、用requests + 网页地址 + user-agent

3、用requests + 网页地址 + user-agent + cookie

4、找json数据接口

​ json数据接口若请求方式为get则无请求体,若为post则有请求体需要给data参数赋值

json数据接口查询以及data:

5、使用selenium

相关文章