scrapy 用python抓取网站

eaf3rand  于 2022-11-09  发布在  Python
关注(0)|答案(3)|浏览(199)

我刚刚开始python。我试图从网站抓取价格和标题。我经历了多个教程和博客,最常见的库是美丽的汤和scrapyMy question is that is there any way to scrape a website without using any library?如果有一种方法来抓取网站,而不使用任何第三方库,如beautifulsoupscrapyIt can use builtin libraries请建议我一个博客,文章或教程,以便我可以学习

vx6bjr1n

vx6bjr1n1#

您可以使用urllib来取代scrapy
您可以使用regex来代替beautifulsoup
但是scrapybeautifulsoup让你的生活更轻松。
Scrapy,不是简单的库,因此您可以使用requestsurllib

uttx8gqw

uttx8gqw2#

我 认为 python 网页 抓取 中 最 好 的 、 流行 的 、 容易 学习 和 使用 的 库 是 request , lxml 和 BeautifulSoup , 最 新 版本 是 bs4 。 总之 , " request " 让 我们 向 网站 的 服务 器 发出 HTML 请求 , 以 检索 其 页面 上 的 数据 。 获取 网页 的 HTML 内容 是 网页 抓取 的 第 一 步 , 也 是 最 重要 的 一 步 。
让 我们 来 看看 Requests Python 库 的 优缺点

    • 优点 : * *
  • 简单 型
  • 基本/摘要 式 身份 验证
  • 国际 域名 和 URL
  • 分 块 请求
  • HTTP ( S ) 代理 支持
    • 缺点 : * *
  • 仅 检索 页面 的 静态 内容
  • 无法 用于 解析 HTML
  • 无法 处理 纯 JavaScript 制作 的 网站

我们 知道 requests 库 不能 解析 从 网页 中 检索 到 的 HTML , 因此 我们 需要 lxml , 一 个 高 性能 、 快 得 惊人 的 、 生产 级 质量 的 HTML 和 XML 解析 Python 库 。
让 我们 来 看看 lxml Python 库 的 优点 和 缺点 。

    • 优点 : * *
  • 比 大多 数 解析 器 都 快
  • 重量 轻
  • 使用 元素 树
  • Python API
    • 缺点 : * *
  • 不能 很 好 地 处理 设计 不良 的 HTML
  • 官方 文件 对 初学 者 不 太 友好

BeautifulSoup 可能 是 用于 网页 抓取 的 最 广泛 的 Python 库 。 它 创建 了 一 个 解析 HTML 和 XML 文档 的 解析 树 。 BeautifulSoup 自动 将 传入 的 文档 转换 为 Unicode , 将 传出 的 文档 转换 为 UTF - 8 。
Beautiful Soup 库 的 一 个 主要 优点 是 它 可以 很 好 地 处理 设计 很 差 的 HTML , 并且 有 很多 函数 。 Beautiful Soup 和 Requests 的 组合 在 业界 相当 普遍 。

    • 优点 : * *
  • 需要 几 行 代码
  • 出色 的 文档
  • 初学 者 易于 学习
  • 坚固 耐用
  • 自动 编码 检测
    • 缺点 : * *
  • 比 lxml 慢

如果 你 想 学习 如何 使用 Beautiful Soup 来 抓取 网页 , 这个 教程 是 为 你 准备 的 :
turtorial 的 最 大 值
顺便 说 一 句 , 有 这么 多 的 库 , 你 可以 尝试 像 Scrapy , selenium 库 网页 搜罗 , regex 和 urllib

ikfrs5lh

ikfrs5lh3#

我认为不使用任何库是不可能的。你可以参考下面的博客来了解更多关于使用python的网页抓取。这里解释了如何用python轻松地抓取网站。
https://spurqlabs.com/how-to-do-web-scraping-crawling-using-python-with-selenium/

相关问题