我试图刮电子邮件,但它给予我none
这些是页面链接https://www.avocats-lille.com/fr/annuaire/avocats-du-tableau-au-barreau-de-lille/3?view=entry
我将转到network tab
并从检查html code
,但电子邮件不存在html代码:
<div class="contact"><p>Contacter par email : <span id="cloak65106">Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.</span><script type='text/javascript'>
代码:从scrapy导入scrapy.http import Request
class TestSpider(scrapy.Spider):
name = 'test'
start_urls = ['https://www.avocats-lille.com/fr/annuaire/avocats-du-tableau-au-barreau-de-lille/3?view=entry']
page_number = 1
def parse(self, response):
mail=response.xpath("//span//a[starts-with(@href, 'mailto')]/@href").get()
yield{
'email':mail
}
1条答案
按热度按时间y1aodyip1#
网页是静态的,除了
email
部分。这就是为什么你得到无。要获取电子邮件,你可以使用scrapy与SeleniumRequest输出:
您必须在
settings.py file
中添加以下代码