我正在使用apachenutch抓取网站。当我使用 readseg 命令读取段中的内容,我得到如下格式:有没有办法以纯文本格式获取web数据?当我在解析文本时使用readseg命令时,我是这样得到的
readseg
wtlkbnrh1#
这个 readseg 命令转储(默认情况下)从URL获取的原始内容。这是传输的整个html内容。如果要获取文本内容,需要等到内容被解析之后。这意味着您需要执行整个爬网周期(或 ./bin/nutch parse 命令)。检查屏幕上的不同选项 readseg 命令(https://wiki.apache.org/nutch/bin/nutch_readseg),如果您已经在执行解析步骤,那么您可能只关心解析的内容,这样就可以避免打印其他内容。
./bin/nutch parse
1条答案
按热度按时间wtlkbnrh1#
这个
readseg
命令转储(默认情况下)从URL获取的原始内容。这是传输的整个html内容。如果要获取文本内容,需要等到内容被解析之后。这意味着您需要执行整个爬网周期(或./bin/nutch parse
命令)。检查屏幕上的不同选项
readseg
命令(https://wiki.apache.org/nutch/bin/nutch_readseg),如果您已经在执行解析步骤,那么您可能只关心解析的内容,这样就可以避免打印其他内容。