我刚刚开始python。我试图从网站抓取价格和标题。我经历了多个教程和博客,最常见的库是美丽的汤和scrapy。My question is that is there any way to scrape a website without using any library?如果有一种方法来抓取网站,而不使用任何第三方库,如beautifulsoup和scrapy。It can use builtin libraries请建议我一个博客,文章或教程,以便我可以学习
scrapy
My question is that is there any way to scrape a website without using any library?
beautifulsoup
It can use builtin libraries
vx6bjr1n1#
您可以使用urllib来取代scrapy。您可以使用regex来代替beautifulsoup。但是scrapy和beautifulsoup让你的生活更轻松。Scrapy,不是简单的库,因此您可以使用requests或urllib。
urllib
regex
Scrapy
requests
uttx8gqw2#
我 认为 python 网页 抓取 中 最 好 的 、 流行 的 、 容易 学习 和 使用 的 库 是 request , lxml 和 BeautifulSoup , 最 新 版本 是 bs4 。 总之 , " request " 让 我们 向 网站 的 服务 器 发出 HTML 请求 , 以 检索 其 页面 上 的 数据 。 获取 网页 的 HTML 内容 是 网页 抓取 的 第 一 步 , 也 是 最 重要 的 一 步 。让 我们 来 看看 Requests Python 库 的 优缺点
我们 知道 requests 库 不能 解析 从 网页 中 检索 到 的 HTML , 因此 我们 需要 lxml , 一 个 高 性能 、 快 得 惊人 的 、 生产 级 质量 的 HTML 和 XML 解析 Python 库 。让 我们 来 看看 lxml Python 库 的 优点 和 缺点 。
BeautifulSoup 可能 是 用于 网页 抓取 的 最 广泛 的 Python 库 。 它 创建 了 一 个 解析 HTML 和 XML 文档 的 解析 树 。 BeautifulSoup 自动 将 传入 的 文档 转换 为 Unicode , 将 传出 的 文档 转换 为 UTF - 8 。Beautiful Soup 库 的 一 个 主要 优点 是 它 可以 很 好 地 处理 设计 很 差 的 HTML , 并且 有 很多 函数 。 Beautiful Soup 和 Requests 的 组合 在 业界 相当 普遍 。
如果 你 想 学习 如何 使用 Beautiful Soup 来 抓取 网页 , 这个 教程 是 为 你 准备 的 :turtorial 的 最 大 值顺便 说 一 句 , 有 这么 多 的 库 , 你 可以 尝试 像 Scrapy , selenium 库 网页 搜罗 , regex 和 urllib
ikfrs5lh3#
我认为不使用任何库是不可能的。你可以参考下面的博客来了解更多关于使用python的网页抓取。这里解释了如何用python轻松地抓取网站。https://spurqlabs.com/how-to-do-web-scraping-crawling-using-python-with-selenium/
3条答案
按热度按时间vx6bjr1n1#
您可以使用
urllib
来取代scrapy
。您可以使用
regex
来代替beautifulsoup
。但是
scrapy
和beautifulsoup
让你的生活更轻松。Scrapy
,不是简单的库,因此您可以使用requests
或urllib
。uttx8gqw2#
我 认为 python 网页 抓取 中 最 好 的 、 流行 的 、 容易 学习 和 使用 的 库 是 request , lxml 和 BeautifulSoup , 最 新 版本 是 bs4 。 总之 , " request " 让 我们 向 网站 的 服务 器 发出 HTML 请求 , 以 检索 其 页面 上 的 数据 。 获取 网页 的 HTML 内容 是 网页 抓取 的 第 一 步 , 也 是 最 重要 的 一 步 。
让 我们 来 看看 Requests Python 库 的 优缺点
我们 知道 requests 库 不能 解析 从 网页 中 检索 到 的 HTML , 因此 我们 需要 lxml , 一 个 高 性能 、 快 得 惊人 的 、 生产 级 质量 的 HTML 和 XML 解析 Python 库 。
让 我们 来 看看 lxml Python 库 的 优点 和 缺点 。
BeautifulSoup 可能 是 用于 网页 抓取 的 最 广泛 的 Python 库 。 它 创建 了 一 个 解析 HTML 和 XML 文档 的 解析 树 。 BeautifulSoup 自动 将 传入 的 文档 转换 为 Unicode , 将 传出 的 文档 转换 为 UTF - 8 。
Beautiful Soup 库 的 一 个 主要 优点 是 它 可以 很 好 地 处理 设计 很 差 的 HTML , 并且 有 很多 函数 。 Beautiful Soup 和 Requests 的 组合 在 业界 相当 普遍 。
如果 你 想 学习 如何 使用 Beautiful Soup 来 抓取 网页 , 这个 教程 是 为 你 准备 的 :
turtorial 的 最 大 值
顺便 说 一 句 , 有 这么 多 的 库 , 你 可以 尝试 像 Scrapy , selenium 库 网页 搜罗 , regex 和 urllib
ikfrs5lh3#
我认为不使用任何库是不可能的。你可以参考下面的博客来了解更多关于使用python的网页抓取。这里解释了如何用python轻松地抓取网站。
https://spurqlabs.com/how-to-do-web-scraping-crawling-using-python-with-selenium/