使用Java和Apache Nutch从网站抓取动态元素

of1yzvn4 于 2023-03-11 发布在 Java

关注(0)|答案(2)|浏览(107)

我想用Java来做抓取和apache nutch来是第一选择。我不得不刮动态元素从网站一样的价格和里程的车辆。我已经做了设置，并试图执行nutch的seed.txt url -https://www.andersondouglas.com/used-vehicles/?q=3gncjksb5kl218243。但所有我可以看到的抓取/段是一个文件，其中只包含网址名称。我看不到/找到网页的HTML内容抓取。有人能请帮助。我怎么才能刮的HTML内容。
Apache-螺母版本1.19

Java

来源：https://stackoverflow.com/questions/75682386/using-java-apache-nutch-to-scrape-dynamic-elements-from-a-website

2条答案

按热度按时间

fd3cxomn1#

以下是获取URL和导出所获取页面的HTML的步骤：
1.安装Nutch并按照Nutch tutorial中的说明配置代理名称。除代理名称外，所有其他配置设置均为默认设置。后续步骤在空目录中运行。命令nutch代表...nutch_install_path/bin/nutch。
1.将URL放入种子文件：echo https://nutch.apache.org/ >seeds.txt
1.将种子注入CrawlDb：nutch inject crawldb seeds.txt
1.生成段：nutch generate crawldb/ segments/
1.获取生成的段：nutch fetch segments/20230310113604/（段名是时间戳，需要进行调整）
1.（可选）解析段：nutch parse segments/20230310113604/（仅在需要元数据、外部链接或纯文本时才需要）
1.获取URL的记录（它包括HTML，但也包括更多信息）：

$> nutch readseg -get segments/20230310113604/ https://nutch.apache.org/
...
Content:
<!DOCTYPE html>
<html lang="en-us">

<head>
  <meta name="generator" content="Hugo 0.92.2" />
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <title> Apache Nutch™ </title>
  ...

（或者）转储段：

nutch readseg -dump segments/20230310113604/ segdump -recode

HTML文本被写入segdump/dump
它被重新编码为UTF-8
运行nutch readseg以获得更多命令行选项的帮助

赞(0）回复(0）举报 2023-03-11

yyyllmsg2#

页面的原始内容（HTML，但也可以是二进制格式，如PDF）存储在子文件夹“content”的段中。请注意，内容仅存储在

如果属性fetcher.store.content为真（这是默认值）并且
如果获取成功（尝试获取给定的URL导致HTTP 403禁止）。很可能该站点受到保护。

赞(0）回复(0）举报 2023-03-11

我来回答

使用Java和Apache Nutch从网站抓取动态元素

2条答案

相关问题

热门标签

最新问答