html Web抓取SEC文件

5ktev3wc 于 2023-02-20 发布在其他

关注(0)|答案(1)|浏览(137)

我的工作是从美国证券交易委员会埃德加网页抓取10Q文件。
这是网址链接：https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm
如果我们检查它，您可以找到

我需要提取1600圆形剧场百老汇不使用id。下面是一个代码片段提取文本使用id标签。但是我需要se名称标签。

from requests_html import HTMLSession
from bs4 import BeautifulSoup

session = HTMLSession()
page = session.get('https://www.sec.gov/Archives/edgar/data/1652044/000165204419000032/goog10-qq32019.htm')
soup = BeautifulSoup(page.content, 'html.parser')

content = soup.find(id="d92517213e644-wk-Fact-0B11263160365DBABCF89969352EE602")
print(content.text)

代替id标签，我想使用名称标签。但是我不能提取信息sing名称标签。请帮助。
参见html信息：

如何使用name标签代替id标签来提取内容。
谢谢

Html

来源：https://stackoverflow.com/questions/75471094/web-scraping-sec-filings

1条答案

按热度按时间

ohtdti5x1#

您可以根据属性值查找元素，如下所示

soup.find('html_tag',{"attribute":"value"})

因此，在您的示例中，name属性存在于ix:nonnumeric标记上

content = soup.find('ix:nonnumeric',{"name":"dei:EntityAddressAddressLine1"})

赞(0）回复(0）举报 2023-02-20

我来回答

html Web抓取SEC文件

1条答案

相关问题

热门标签

最新问答