我想用scrapy库中的response.css()函数从初始网站中提取下一页。当嵌入下一页的链接时,我没有找到任何关于如何使用该函数的提示:<li style="text-align: left;"><a href="/the/desired/link">NameOfPage</a></li>个这是可能的与scrapy或我应该使用任何其他像BeautifulSoup?
response.css()
<li style="text-align: left;"><a href="/the/desired/link">NameOfPage</a></li>
ss2ws0br1#
我不完全确定是否可以使用css来实现,但是使用xpath可以很容易地表达:
css
xpath
response.xpath('//li[contains(@style, "text-align: left;")]')
xpath表达式确实很强大,在拉入另一个库之前,你可能给予一试。
mspsb9vt2#
对于那些还在寻找这个答案的人。你可以试试这个:response.css("li [style='text-align: left;'] a::attr(href)").get()
response.css("li [style='text-align: left;'] a::attr(href)").get()
2条答案
按热度按时间ss2ws0br1#
我不完全确定是否可以使用
css
来实现,但是使用xpath
可以很容易地表达:xpath表达式确实很强大,在拉入另一个库之前,你可能给予一试。
mspsb9vt2#
对于那些还在寻找这个答案的人。你可以试试这个:
response.css("li [style='text-align: left;'] a::attr(href)").get()