我正在使用Scrapy解析方法中的newspaper3k。我想提取链接,但我不想再次获取网站。是否可以使用此功能:
Scrapy
newspaper3k
newspaper.build(..)
这样我就可以调用.articles了
.articles
a5g8bdjr1#
我找到了这个解决方案:
import httpx from newspaper import Article async def get_article(url): with httpx.AsyncClient() as client: response = await client.get(url) article = Article(url) article.set_html(response.text) article.parse()
1条答案
按热度按时间a5g8bdjr1#
我找到了这个解决方案: