scrapy 从链接中提取完整的URL

im9ewurl  于 2022-12-23  发布在  其他
关注(0)|答案(1)|浏览(305)

我正在使用scrapy-playwright来删除amanzon.co.in。我可以提取所需项目的描述、评级和价格。但是,为了转到下一页,我想提取页面底部的“下一页”按钮的href。
通过scrapy-playwright python代码,我可以提取next button的href,如下所示:href="/s?k=男士香皂&第2页”
当我使用浏览器提取URL时,显示如下:https://www.amazon.in/s?k=soap+for+men&page=2&crid=1A43B14UY65X0&qid=1671472636&sprefix=soap+for+men%2Caps%2C262&ref=sr_pg_1
我如何从链接生成完整的网址,包括通过代码提取的crid?

tf7tbtn2

tf7tbtn21#

CRID、QID和SPREFIX是查询参数,用于指定关于向服务器做出的请求的附加信息。
crid:这代表“客户请求ID”,它是Amazon生成的用于跟踪客户请求的唯一标识符。
qid:这代表“查询ID”,它是Amazon生成的用于跟踪搜索查询的唯一标识符。
sprefix:这代表“搜索前缀”,它指定搜索查询的前缀,可以用来细化搜索结果。
Amazon使用这些查询参数来跟踪和优化其搜索功能的性能。它们不一定对用户或所请求页面的内容有任何意义。您可以在没有这些查询参数的情况下运行您的蜘蛛,它不会对输出产生任何影响。

相关问题