我已经用playwright写了一个返回html内容的代码。我的问题是是否有一个方法可以调用scrapy从这个html内容中读取或者scrapy只从url中读取?我将感谢你的任何答复。谢谢你!
zd287kbt1#
我建议将返回HTML内容写入一个文件,并使用以下命令来抓取本地文件:
import scrapy import os LOCAL_FILENAME = 'example.html' LOCAL_FOLDER = 'html_files' BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) class ExampleSpider(scrapy.Spider): name = "example" start_urls = [ f"file://{BASE_DIR}/{LOCAL_FOLDER}/{LOCAL_FILENAME}" ]
1条答案
按热度按时间zd287kbt1#
我建议将返回HTML内容写入一个文件,并使用以下命令来抓取本地文件: