尝试了解在python
中循环未格式化为表(tr/td)的数据的最佳方式
示例数据:
https://www.nhlpa.com/the-pa/certified-agents?range=A-Z
尝试创建一个表的名称,头像URL,公司,地址,教育。
到目前为止,正在尝试执行以下操作,但似乎无法理解如何进入内容组件的div:
r=requests.get(url)
soup=BeautifulSoup(r.text, 'html5lib')
table = soup.find_all('div', attrs = {'class':'col-lg-6 agent'})
for a in table:
if a.find('div', attrs = {'headshot'}):
headshot_url=a.find('div', attrs = {'headshot'}).img```
2条答案
按热度按时间fhg3lkii1#
只需迭代所有代理并选择特定信息,将它们存储在一个dicts列表中:
这可以转换成 Dataframe 。
示例
输出
| | 姓名|头像_url|连|地址|教育|
| - ------|- ------|- ------|- ------|- ------|- ------|
| 无|韦德·阿诺特|https://cdn.nhlpa.com/img/assets/agents/headshots/48x48/9207.jpg|纽波特体育管理公司|加拿大安大略省密西沙加市中心大道201号400室,L5 B 2 T4|协和法学院法学博士。|
| | | | | | 威尔弗里德·劳里埃大学,公共汽车管理学荣誉,1991年。|
| 1个|帕特里克·阿伦松|https://cdn.nhlpa.com/img/assets/agents/headshots/48x48/56469.jpg| AC曲棍球|Faktorvagen 17瑞典皇家银行,43437|没有。|
| 第二章|舒米·巴巴耶夫|https://cdn.nhlpa.com/img/assets/agents/headshots/48x48/56794.jpg|舒米·巴巴耶夫机构||莫斯科矿业大学(莫斯科),1989-1994年----硕士学位|
| 三个|米卡·贝克曼|https://cdn.nhlpa.com/img/assets/agents/headshots/48x48/58054.jpg| WSG芬兰有限公司|芬兰埃斯波卡佩利库贾6号C 02200|赫尔辛基大学法学院(1992-1998年)----法学硕士|
...
4c8rllxm2#
希望这对〈3有帮助