import scrapy
from scrapy.crawler import CrawlerProcess
class MySpider(scrapy.Spider):
# Your spider definition
...
process = CrawlerProcess(settings={
"FEEDS": {
"items.json": {"format": "json"},
},
})
process.crawl(MySpider)
process.start() # the script will block here until the crawling is finished
2条答案
按热度按时间n3ipq98p1#
你可以用streamlit在GitHub上创建一个公共仓库,然后用0auth连接你的账户,登录streamlit网站后就可以在streamlit服务器上部署了。
rt4zxlrg2#
您可以使用scrapy.crawler.CrawlerProcess模块从脚本运行scrapy
基本上,你可以运行蜘蛛,暂时导出数据,并在你的streamli应用程序中使用它-
现在您可以保存此脚本并使用
subprocess
运行,这将把数据导出到items.json
。这里有一个有用的streamlit cloud scrapy thread与public streamlit-scrapy project github repo