我使用的是Python 3.5,实际上我主要使用BeautifulSoup/lxml/Selenium/PhantomJS进行网页抓取
我只是想搜集所有我需要的数据,来破解Python代码。
我可以用BeautifulSoup轻松地从静态HTML url中抓取信息。我最近也发现了如何从动态url中获取信息,使用Chrome上的Network Tab,在XHR选项下看到出现的HTTPrequest。它通常会给我从JS生成的html代码,在这种情况下,我可以继续用正则表达式用BS 4抓取它。但实际上,我正在从事一个新的项目,从 www.example.com 在这种情况下,我真的很困惑如何继续,因为在XHR下我找不到一个有效的东西来继续抓取。尝试了又尝试,我发现我可以从如下URL中抓取信息:
例如,我的链接是:http://www.oddsportal.com/soccer/england/premier-league/tottenham-sunderland-UBtChnLa/
我发现非常有趣的链接是:
http://fb.oddsportal.com/feed/match/1-1-UBtChnLa-1-2-yjc11.dat?_=1452760985069
在这里,你可以找到我需要的每一个赔率,但当我试图刮它给我错误,如:
globals.jsonpCallback
我知道我必须学习Python中的json库,但是我真的不知道该怎么做。你能帮我解释一下吗?我真的很想专注于这类项目,所以我想了解更多,但是我知道我对这方面的知识实际上很低。谢谢你的信息!
2条答案
按热度按时间xqk2d5yq1#
你试过用xpath抓取html吗?你可能会发现它比用regex更容易。你也可能想看看HtmlAgilityPack for C#,它非常适合网页抓取。
xyhw6mcr2#
(R而非python)
我一直在为一个类似的问题而挣扎,很长一段时间后,我把解决方案打包成了一个R包,我想知道这是否足够类似于移植到python。
https://github.com/ikashnitsky/oddor