scrapy获取rel的标记a属性值

nxowjjhe 于 2022-11-09 发布在其他

关注(0)|答案(1)|浏览(126)

标签类型a：

<a rel="sponsored" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>

或

<a rel="ugc" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>

和以下值中的一个或多个：

rel="sponsored"
or
rel="ugc"
or
rel="ugc nofollow noreferrer"

显然，Scrapy只支持以下值（只是“nofollow”）：

<a rel="nofollow" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>

如何获取其他值（如：ugc、noreferrer和...）的帮助下，如何使用Link Extractors？

1条答案

必须使用from lxml import etree库。
您无法使用链接提取器执行此操作。
例如：etree.fromstring(tag)