将HTML表格解析为Python列表？

eqzww0vc 于 2023-06-20 发布在 Python

关注(0)|答案(4)|浏览(98)

我想获取一个HTML表并解析它以获得一个字典列表。每个列表元素都是对应于表中一行的字典。
例如，如果我有一个HTML表，其中有三列（由标题标记标记），“Event”，“Start Date”和“End Date”，并且该表有5个条目，我想解析该表以获得长度为5的列表，其中每个元素都是一个字典，键为“Event”，“Start Date”和“End Date”。
谢谢你的帮助！

Html

来源：https://stackoverflow.com/questions/6325216/parse-html-table-to-python-list

4条答案

按热度按时间

v440hwme1#

你应该使用一些HTML解析库，比如lxml：

from lxml import etree
s = """<table>
  <tr><th>Event</th><th>Start Date</th><th>End Date</th></tr>
  <tr><td>a</td><td>b</td><td>c</td></tr>
  <tr><td>d</td><td>e</td><td>f</td></tr>
  <tr><td>g</td><td>h</td><td>i</td></tr>
</table>
"""
table = etree.HTML(s).find("body/table")
rows = iter(table)
headers = [col.text for col in next(rows)]
for row in rows:
    values = [col.text for col in row]
    print dict(zip(headers, values))

印刷品

{'End Date': 'c', 'Start Date': 'b', 'Event': 'a'}
{'End Date': 'f', 'Start Date': 'e', 'Event': 'd'}
{'End Date': 'i', 'Start Date': 'h', 'Event': 'g'}

赞(0）回复(0）举报 2023-06-20

laik7k3q2#

解析HTML表最简单的方法是使用pandas.read_html()-它同时接受URL和HTML。

import pandas as pd
url = r'https://en.wikipedia.org/wiki/List_of_S%26P_500_companies'
tables = pd.read_html(url) # Returns list of all tables on page
sp500_table = tables[0] # Select table of interest

唯一的缺点是read_html()不保留超链接。

赞(0）回复(0）举报 2023-06-20

clj7thdc3#

Sven Marnach优秀的解决方案可以直接翻译成ElementTree，这是最近Python发行版的一部分：

from xml.etree import ElementTree as ET

s = """<table>
  <tr><th>Event</th><th>Start Date</th><th>End Date</th></tr>
  <tr><td>a</td><td>b</td><td>c</td></tr>
  <tr><td>d</td><td>e</td><td>f</td></tr>
  <tr><td>g</td><td>h</td><td>i</td></tr>
</table>
"""

table = ET.XML(s)
rows = iter(table)
headers = [col.text for col in next(rows)]
for row in rows:
    values = [col.text for col in row]
    print(dict(zip(headers, values)))

和斯文·马纳赫的答案一样

赞(0）回复(0）举报 2023-06-20

xyhw6mcr4#

如果HTML是不是XML，你就不能用 * etree *。但即使这样，您也不必使用外部库来解析HTML表。在python 3中，你可以使用HTMLParser from html.parser来实现你的目标。我有简单派生的HTMLParser类here in a github repo的代码。
您可以按以下方式使用该类（此处命名为HTMLTableParser）：

import urllib.request
from html_table_parser import HTMLTableParser

target = 'http://www.twitter.com'

# get website content
req = urllib.request.Request(url=target)
f = urllib.request.urlopen(req)
xhtml = f.read().decode('utf-8')

# instantiate the parser and feed it
p = HTMLTableParser()
p.feed(xhtml)
print(p.tables)

其输出是表示表的2D列表的列表。它看起来可能像这样：

[[['   ', ' Anmelden ']],
 [['Land', 'Code', 'Für Kunden von'],
  ['Vereinigte Staaten', '40404', '(beliebig)'],
  ['Kanada', '21212', '(beliebig)'],
  ...
  ['3424486444', 'Vodafone'],
  ['  Zeige SMS-Kurzwahlen für andere Länder ']]]

赞(0）回复(0）举报 2023-06-20

我来回答

将HTML表格解析为Python列表？

4条答案

相关问题

热门标签

最新问答