scrapy获取rel的标记a属性值

nxowjjhe  于 2022-11-09  发布在  其他
关注(0)|答案(1)|浏览(139)

标签类型a:

<a rel="sponsored" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>

<a rel="ugc" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>

和以下值中的一个或多个:

rel="sponsored"
or
rel="ugc"
or
rel="ugc nofollow noreferrer"

显然,Scrapy只支持以下值(只是“nofollow”):

<a rel="nofollow" href="https://cheese.example.com/Appenzeller_cheese">Appenzeller</a>

如何获取其他值(如:ugc、noreferrer和...)的帮助下,如何使用Link Extractors

6ojccjat

6ojccjat1#

必须使用from lxml import etree库。
您无法使用链接提取器执行此操作。
例如:etree.fromstring(tag)

相关问题