我试图从一个网站使用rvest
刮数据.我在网页的html阅读,然后提取的形式.此后,我在表单中使用rvest::html_form_set
进行更改,然后提交它.看了表单后,我意识到没有提交按钮。网站上可用的按钮是一个锚标记,带有脚本的href。我尝试使用rvest::session_follow_link()
,但无法获取数据。这是不起作用的代码:
trademark_search_page <- rvest::session('https://ipindiaonline.gov.in/tmrpublicsearch/frmmain.aspx')
search_form <- rvest::html_form(trademark_search_page)[[1]]
search_form <- search_form %>% rvest::html_form_set(`ctl00$ContentPlaceHolder1$TBWordmark` = 'Bull',
`ctl00$ContentPlaceHolder1$TBClass` = 32)
resp <- trademark_search_page %>% rvest::session_submit(search_form) %>%
rvest::session_follow_link(xpath = '//a[@id = "ContentPlaceHolder1_BtnSearch"]')
有什么建议我应该做什么?
1条答案
按热度按时间svujldwt1#
我认为使用
rvest
可能会比较棘手,因为按钮引用了一个javascript脚本。下面是指向的页面的样子:
进入此页面后,您可以使用
rvest
获取更多详细信息链接列表然后你可以循环通过所有的按钮并点击它们或拉取数据