我试图刮https://stores.pandora.net/en-au/的所有地点在澳大利亚和他们的地址使用Parsehub和它不抛出结果,因为它通常会。
Parse Hub截图:
如图所示,现场预览显示表完美的罚款,但当我运行它只抛出垃圾值(如2商店在美国)
我试着用Beautiful soup,但是类看起来比我最初想象的要复杂。(看起来它是坐在MapList数组,但我不知道我如何提取这一位)
任何帮助在这里将不胜感激!谢谢您的支持:)
我试图刮https://stores.pandora.net/en-au/的所有地点在澳大利亚和他们的地址使用Parsehub和它不抛出结果,因为它通常会。
Parse Hub截图:
如图所示,现场预览显示表完美的罚款,但当我运行它只抛出垃圾值(如2商店在美国)
我试着用Beautiful soup,但是类看起来比我最初想象的要复杂。(看起来它是坐在MapList数组,但我不知道我如何提取这一位)
任何帮助在这里将不胜感激!谢谢您的支持:)
1条答案
按热度按时间twh00eeo1#
这个站点从这个API
https://maps.pandora.net/api/getAsyncLocations
获取数据,查询参数中有search
值。结果是一个JSON对象,其字段maplist
包含html数据(单个div)。这个div嵌入了几个逗号分隔的JSON对象:因此,我们需要将逗号分隔的JSON对象重新排列到一个数组中来解析它。以下示例使用curl、jq(json解析器)、sed和pup(html解析器)提取数据:
在python与python-requests和beautifulsoup中: