python-3.x 问题网页抓取https://www.vgchartz.com/gamedb/. jupyter笔记本冻结在[*]

wribegjk  于 2023-08-08  发布在  Python
关注(0)|答案(1)|浏览(115)

你好,所以我试图web scrapy https://www.vgchartz.com/gamedb/
我跟随https://github.com/patiegm/vgchartzPythonScraper/blob/master/vgChartzScraper.py
和他们的编码。但是当我到达while data_exists时:页面+=
系统冻结,我已经更新了pykernal,我仍然不能让它运行。
有什么建议吗?或者另一种方式来我可以废弃网站
我试过几个网页抓取指令,但网站似乎编码真的很笨拙。没有课,很难确定什么是什么。

mznpcxlj

mznpcxlj1#

要将表获取到pandas Dataframe,您可以使用下一个示例:

import requests
import pandas as pd
from bs4 import BeautifulSoup

url = 'https://www.vgchartz.com/gamedb/'

soup = BeautifulSoup(requests.get(url).content, 'html.parser')
table = soup.select_one('#generalBody table')

table.tr.extract()
table.tr.extract()

df = pd.read_html(str(table))[0]
print(df.head(10).to_markdown(index=False))

字符串
印刷品:
| 游戏|游戏1|控制台|出版者|VGChartz评分|评论家评分|用户评分|总发货量|发布日期|上次更新时间| Last Update |
| --|--|--|--|--|--|--|--|--|--| ------------ |
| 南|俄罗斯方块|南|俄罗斯方块公司|南|南|南| 496.40m |88年01月01日|第27届2月20日| 27th Feb 20 |
| 南|口袋妖怪|南|任天堂|南|南|南| 480.00m |98年9月28日|20年2月3日| 03rd Feb 20 |
| 南|超级马里奥|南|任天堂|南|南|南| 400.39m |1983年7月20日|20th Feb 20| 20th Feb 20 |
| 南|使命召唤|南|动视|南|南|南| 400.00m |2003年10月29日|20年2月3日| 03rd Feb 20 |
| 南|侠盗猎车手|南|Rockstar Games|南|南|南| 400.00m |98年3月27日|20年2月3日| 03rd Feb 20 |
| 南|国际足联|南|EA Sports|南|南|南| 325.00m |1993年12月15日|20年2月3日| 03rd Feb 20 |
| 南|Minecraft|南|莫姜|南|南|南| 238.00m |11月18日|08二月20| 08th Feb 20 |
| 南|Minecraft|南|莫姜|南|南|南| 238.00m |11月18日|2018年10月8日| 08th Oct 20 |
| 南|乐高|南|华纳兄弟|互动娱乐南|南|南| 203.22m |97年9月26日|01 Mar 20| 01st Mar 20 |
| 南|刺客信条|南|育碧|南|南|南| 200.00m |07年11月13日|11二月20| 11th Feb 20 |

相关问题