我需要从一些网站中提取段落文本,例如,使用scrapy提取sample。屏幕截图显示了结构。下面是代码。
class ArticlesSpider(scrapy.Spider):
name = 'articles'
start_urls = ['https://www.globenewswire.com/news-release/2022/05/05/2437159/0/en/ORYZON-Reports-Results-and-Corporate-Update-for-Quarter-Ended-March-31-2022.html']
def parse(self, response):
article = testScrapyItem()
article['title'] = response.css('h1.article-headline::text').get()
article['sub_title'] = response.css('h2.article-sub-headline::text').get()
article['publish_date'] = response.css('time::text').get()
article['body'] = response.css('div.main-body-container').getall()
yield article
我对标题、子标题和发布日期没有问题。但是在正文中,我无法提取文本。我得到的是带有所有html标签的文本。我想要的是列表中的所有段落。
1条答案
按热度按时间wsewodh21#
您可以使用xpath
工作示例: