我正在尝试抓取沃尔玛的搜索结果。
例如,让我们转到域“https://www.walmart.com/search/?query=coffee%20machine”
并尝试从类名为search-product-result
的元素中提取文本,全部使用python编写。
我尝试了selenium
,并被要求验证我的身份。我试过requests
,我从沃尔玛得到了禁止的页面。我试过其他的图书馆,我已经没有办法了。有什么建议吗
我正在尝试抓取沃尔玛的搜索结果。
例如,让我们转到域“https://www.walmart.com/search/?query=coffee%20machine”
并尝试从类名为search-product-result
的元素中提取文本,全部使用python编写。
我尝试了selenium
,并被要求验证我的身份。我试过requests
,我从沃尔玛得到了禁止的页面。我试过其他的图书馆,我已经没有办法了。有什么建议吗
1条答案
按热度按时间iq3niunx1#
此URL中的数据正在由JavaScript加载。所以
beautifulsoup
在这种情况下不起作用。但是,页面显示的数据在其HTML代码中以
<script>
标记中的JSON字符串形式存在。我已经从HTML代码中提取了
<script>
,做了一些剥离并将文本转换为JSON。您可以从该JSON中提取任何您需要的数据。下面是打印搜索结果的产品ID的代码。
输出产品ID。