我的工作是从美国证券交易委员会埃德加网页抓取10Q文件。
这是网址链接:https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm
如果我们检查它,您可以找到
我需要提取1600圆形剧场百老汇不使用id。下面是一个代码片段提取文本使用id标签。但是我需要se名称标签。
from requests_html import HTMLSession
from bs4 import BeautifulSoup
session = HTMLSession()
page = session.get('https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm')
soup = BeautifulSoup(page.content, 'html.parser')
content = soup.find(id="d92517213e644-wk-Fact-0B11263160365DBABCF89969352EE602")
print(content.text)
代替id标签,我想使用名称标签。但是我不能提取信息sing名称标签。请帮助。
参见html信息:
如何使用name标签代替id标签来提取内容。
谢谢
1条答案
按热度按时间ohtdti5x1#
您可以根据属性值查找元素,如下所示
因此,在您的示例中,
name
属性存在于ix:nonnumeric
标记上