你好,所以我试图web scrapy https://www.vgchartz.com/gamedb/。
我跟随https://github.com/patiegm/vgchartzPythonScraper/blob/master/vgChartzScraper.py
和他们的编码。但是当我到达while data_exists时:页面+=
系统冻结,我已经更新了pykernal,我仍然不能让它运行。
有什么建议吗?或者另一种方式来我可以废弃网站
我试过几个网页抓取指令,但网站似乎编码真的很笨拙。没有课,很难确定什么是什么。
1条答案
按热度按时间mznpcxlj1#
要将表获取到pandas Dataframe,您可以使用下一个示例:
字符串
印刷品:
| 游戏|游戏1|控制台|出版者|VGChartz评分|评论家评分|用户评分|总发货量|发布日期|上次更新时间| Last Update |
| --|--|--|--|--|--|--|--|--|--| ------------ |
| 南|俄罗斯方块|南|俄罗斯方块公司|南|南|南| 496.40m |88年01月01日|第27届2月20日| 27th Feb 20 |
| 南|口袋妖怪|南|任天堂|南|南|南| 480.00m |98年9月28日|20年2月3日| 03rd Feb 20 |
| 南|超级马里奥|南|任天堂|南|南|南| 400.39m |1983年7月20日|20th Feb 20| 20th Feb 20 |
| 南|使命召唤|南|动视|南|南|南| 400.00m |2003年10月29日|20年2月3日| 03rd Feb 20 |
| 南|侠盗猎车手|南|Rockstar Games|南|南|南| 400.00m |98年3月27日|20年2月3日| 03rd Feb 20 |
| 南|国际足联|南|EA Sports|南|南|南| 325.00m |1993年12月15日|20年2月3日| 03rd Feb 20 |
| 南|Minecraft|南|莫姜|南|南|南| 238.00m |11月18日|08二月20| 08th Feb 20 |
| 南|Minecraft|南|莫姜|南|南|南| 238.00m |11月18日|2018年10月8日| 08th Oct 20 |
| 南|乐高|南|华纳兄弟|互动娱乐南|南|南| 203.22m |97年9月26日|01 Mar 20| 01st Mar 20 |
| 南|刺客信条|南|育碧|南|南|南| 200.00m |07年11月13日|11二月20| 11th Feb 20 |