网页https://polititweet.org/存储了某些政客、CEO等的完整推文历史。重要的是,他们还提供了我感兴趣的已删除推文。现在,我想在R中编写一个webscraper来检索Elon Musk已删除推文的文本,但我失败了,因为html中包含一些href。
这是我的尝试(编辑后,由于@Bensstats):
library(rvest)
url_page1<- read_html("https://polititweet.org/tweets?page=1&deleted=True&account=44196397&search=")
tweets_deleted <- html_nodes(url_page1, ".tweet-card") |> html_attr("href")
tweets_deleted
这样,我就在第1页上生成了被删除的tweet的ID。然而,我想要的是被删除的文本本身。
此外,马斯克有9页被删除的推文。由于未来这一页面数量可能会增加,我希望自动提取页面数量,然后自动化每个页面的过程(通过循环或类似的东西)。
如果你们中有人知道如何解决这些问题,我将非常感激!
多谢了!
2条答案
按热度按时间3phpmpom1#
获取伊隆删除的所有推文,第1:9页。
既然你想让它自动检测页面并抓取,这里有一个可能的解决方案,你只需提供一个指向函数的链接:
我强烈推荐这个tool来帮助您选择CSS元素。
lmvvr0a82#
您可能需要更改CSS选择器