scrapy 如何与剧作家增加等待时间

omjgkv6w  于 2023-04-30  发布在  其他
关注(0)|答案(1)|浏览(165)

我正在整合scrappy与剧作家,但发现自己有困难添加一个计时器后,点击。因此,当我在点击后截图页面时,它仍然挂在登录页面上。
如何集成一个计时器,使页面等待几秒钟,直到页面加载?
选择器

  • 下面的.onetrust-close-btn-handler.onetrust-close-btn-ui.banner-close-button.onetrust-lg.ot-close-icon替换为
  • .onetrust-close-btn-handler
import scrapy
from scrapy_playwright.page import PageCoroutine

class DoorSpider(scrapy.Spider):
    name = 'door'
    start_urls = ['https://nextdoor.co.uk/login/']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url=url, 
                callback = self.parse, 
                meta= dict(
                        playwright = True,
                        playwright_include_page = True,
                        playwright_page_coroutines = [
                        PageCoroutine("click", 
                           selector = ".onetrust-close-btn-handler"),
                        PageCoroutine("fill", "#id_email", 'my_email'),
                        PageCoroutine("fill", "#id_password",
                                                   'my_password'),
                        PageCoroutine('waitForNavigation'),
                        PageCoroutine("click", selector="#signin_button"),
                        PageCoroutine("screenshot", path="cookies.png", 
                                                    full_page=True),                        
                        ]
                )
            )

    def parse(self, response):
        yield {
            'data':response.body
        }
kr98yfug

kr98yfug1#

根据您的特定用例,您可以使用许多waiting方法。下面是一个示例,但您可以从docs阅读更多内容

  1. wait_for_event(event, **kwargs)
  2. wait_for_selector(selector, **kwargs)
  3. wait_for_load_state(**kwargs)
  4. wait_for_url(url, **kwargs)
  5. wait_for_timeout(timeout
    对于你的问题,如果你需要等待页面加载,你可以使用下面的协程并将其插入到列表中的适当位置:
...
PageCoroutine("wait_for_load_state", "load"),
...

...
PageCoroutine("wait_for_load_state", "domcontentloaded"),
...

如果以上两种方法都不起作用,您可以尝试任何其他wait方法,或者您可以使用显式的超时值(如3秒)。(不建议这样做,因为它会更频繁地失败,并且在Web抓取时不是最佳选择)

...
PageCoroutine("wait_for_timeout", 3000),
...

相关问题