python-3.x 刮除零星信息

hmtdttj4 于 2022-12-15 发布在 Python

关注(0)|答案(2)|浏览(131)

我使用的是Python 3.5，实际上我主要使用BeautifulSoup/lxml/Selenium/PhantomJS进行网页抓取
我只是想搜集所有我需要的数据，来破解Python代码。
我可以用BeautifulSoup轻松地从静态HTML url中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome上的Network Tab，在XHR选项下看到出现的HTTPrequest。它通常会给我从JS生成的html代码，在这种情况下，我可以继续用正则表达式用BS 4抓取它。但实际上，我正在从事一个新的项目，从 www.example.com 在这种情况下，我真的很困惑如何继续，因为在XHR下我找不到一个有效的东西来继续抓取。尝试了又尝试，我发现我可以从如下URL中抓取信息：
例如，我的链接是：http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/
我发现非常有趣的链接是：
http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069
在这里，你可以找到我需要的每一个赔率，但当我试图刮它给我错误，如：
globals.jsonpCallback
我知道我必须学习Python中的json库，但是我真的不知道该怎么做。你能帮我解释一下吗？我真的很想专注于这类项目，所以我想了解更多，但是我知道我对这方面的知识实际上很低。谢谢你的信息！

python-3.x

来源：https://stackoverflow.com/questions/34785764/scrape-oddsportal-information