使用Scrapy修正xpath

lbsnaicq 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(129)

import scrapy
from scrapy.http import Request

class PushpaSpider(scrapy.Spider):
    name = 'test'
    start_urls = ['https://ap-rk.com/advokat-panfilov-vladimir-vladimirovich-moskva-otzyvy-telefon-adres-chasy-raboty-foto/']

    def parse(self, response):
        website=response.xpath("//td//strong[contains(.,'Официальный сайт:')]/following-sibling::td/text()").get()
        yield{
            'website':website
        }

中的每一个
我想尝试提取 link ，但他们会给我什么都没有，这些是页面链接 https://ap-rk.com/advokat-panfilov-vladimir-vladimirovich-moskva-otzyvy-telefon-adres-chasy-raboty-foto/

scrapy

来源：https://stackoverflow.com/questions/73090706/xpath-correct-using-scrapy

1条答案

按热度按时间

xzlaal3s1#

没有人可以阻止你使用像Scrapy这样的复杂解决方案，当同样的结果可以在2行代码中实现时（好吧，3）：

import pandas as pd

dfs = pd.read_html('https://ap-rk.com/advokat-panfilov-vladimir-vladimirovich-moskva-otzyvy-telefon-adres-chasy-raboty-foto/')
dfs[0]

这将返回：

0   1
0   NaN Телефон: +7 (495) 646-0697
1   Рабочий адрес:  Москва
2   NaN г. Москва, ул. Бутырский вал, дом № 68, офис №403
3   Специализация:  корпоративное право предпринимательское право
4   Об адвокате:    NaN
5   Информация: Адвокатская палата: Республики Башкортостан Но...
6   Электронная почта:  order@chelovekizakon.ru
7   Официальный сайт:   https://chelovekizakon.ru

编辑：由于我试图提出一个简单的解决方案，使OP愤怒，这里是正确的XPATH来定位有问题的URL：

"//td/strong[text()='Официальный сайт:']/parent::td//following-sibling::td"

赞(0）回复(0）举报 2022-11-09

我来回答

使用Scrapy修正xpath

1条答案

相关问题

热门标签

最新问答