html Web抓取SEC文件

5ktev3wc  于 2023-02-20  发布在  其他
关注(0)|答案(1)|浏览(136)

我的工作是从美国证券交易委员会埃德加网页抓取10Q文件。
这是网址链接:https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm
如果我们检查它,您可以找到

我需要提取1600圆形剧场百老汇不使用id。下面是一个代码片段提取文本使用id标签。但是我需要se名称标签。

from requests_html import HTMLSession
from bs4 import BeautifulSoup

session = HTMLSession()
page = session.get('https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm')
soup = BeautifulSoup(page.content, 'html.parser')

content = soup.find(id="d92517213e644-wk-Fact-0B11263160365DBABCF89969352EE602")
print(content.text)

代替id标签,我想使用名称标签。但是我不能提取信息sing名称标签。请帮助。
参见html信息:

如何使用name标签代替id标签来提取内容。
谢谢

ohtdti5x

ohtdti5x1#

您可以根据属性值查找元素,如下所示

soup.find('html_tag',{"attribute":"value"})

因此,在您的示例中,name属性存在于ix:nonnumeric标记上

content = soup.find('ix:nonnumeric',{"name":"dei:EntityAddressAddressLine1"})

相关问题