如何使用scrapy处理html内容

k4emjkb1  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(160)

我已经用playwright写了一个返回html内容的代码。我的问题是是否有一个方法可以调用scrapy从这个html内容中读取或者scrapy只从url中读取?
我将感谢你的任何答复。
谢谢你!

zd287kbt

zd287kbt1#

我建议将返回HTML内容写入一个文件,并使用以下命令来抓取本地文件:

import scrapy
import os

LOCAL_FILENAME = 'example.html'
LOCAL_FOLDER = 'html_files'
BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = [
        f"file://{BASE_DIR}/{LOCAL_FOLDER}/{LOCAL_FILENAME}"
    ]

相关问题