我得到了这整个运行代码Article_content = ''
可以有人修复这个代码,只得到文章的内容?
以下是URL
https://www.fodors.com/world/asia/india/experiences/news/things-you-need-to-know-before-you-visit-india
这是我的代码
# Content = {}
# header,paragraphs = "",[]
# for element in response.xpath('//*[@class="entry-content content-single container "]/*'):
# tag = element.re(r"<(\w+)\s") # get the tag name
# # if its a paragraph add it to the paragraph list
# if tag[0] == "p":
# paragraphs += element.xpath(".//text()").getall()
# # if it's a heading place the heading and paragraphs in the
# # dictionary and start a new heading with the current text.
# elif tag[0] == "h3":
# Content[header] = ''.join(paragraphs).strip()
# header = ' '.join(element.xpath(".//text()").getall()).strip()
# paragraphs = []
Article_Content = response.xpath('//*[@class="entry-content content-single container "]/text()')
Content = '\n'.join(Article_Content.getall()).strip()
yield{
'Category':Category,
'Headlines':Headlines,
'Author': Author,
'Source': Source,
'Publication Date': Published_Date,
'Feature_Image': Feature_Image,
'Article Content': Content
}
2条答案
按热度按时间lawou6xi1#
你需要使用更精确的定位器。
请尝试使用以下定位器,而不是父块元素定位器:
此定位符匹配该块中的所有文本元素。
这将给予你一个web对象列表。现在,你必须遍历该列表,并分别提取每个文本内容。
dgtucam12#
您可以尝试下一个示例:
输出: