我正在尝试使用以下代码解析网站:
import requests
r = requests.get('https://www.finn.no/realestate/homes/search.html?sort=PUBLISHED_DESC')
print(r.json())
但是,它似乎只是返回一个空数组。
我试着把它放在一个法令里,然后用
import sys, json
struct = {}
try:
dataform = str(r).strip("'<>() ").replace('\'', '\"')
struct = json.loads(dataform)
except:
print(repr(r))
print(sys.exc_info())
struct
代码返回:
〈响应[200]〉(〈类'JSON解码器. JSON解码错误'〉,JSON解码错误('预期值:第1行第1列(字符0)......
1条答案
按热度按时间9lowa7mx1#
现在你试图把HTML文档当作Json来处理,所以很明显这不是你想要的。页面的Json数据被嵌入到一个
<script>
元素中,所以你可以使用beautifulsoup
来定位它,并使用json
模块来解析它:图纸: