apachenutch:get outlink url的文本上下文

kq0g1dla 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(324)

任何人都知道一种有效的方法来提取 Package 大纲链接url的文本上下文。例如，给定包含大纲链接的示例文本：
nutch可以在一台机器上运行，但是在hadoop集群中运行可以获得很多优势。你可以在这里下载nutch。有关apachenutch的更多信息，请参阅nutchwiki。
在这个例子中，我想得到包含链接的句子，以及该句子前后的一个句子。有什么办法能有效地做到这一点吗？我可以调用任何方法来获取获取的内容中链接的位置之类的内容吗？或者我可以修改一部分nutch代码来实现这一点？谢谢！

hadoop apache nutch web-scraping

来源：https://stackoverflow.com/questions/22283624/apache-nutch-get-outlink-urls-text-context

1条答案

按热度按时间

nfs0ujit1#

你要做的是网页抓取。python和hadoop为此提供了工具。要实现它，可以使用选择器。
下面是一些使用python scrapy的示例：
选择器
刮痧教程
在hadoop上，最好的方法是使用选择器实现爬网：
使用hadoop进行web爬网
在此处输入链接说明
Hive
级联可用于寻址指定的url：
hadoop和级联
获得数据后，还可以使用r优化分析：
r和hadoop
在hadoop上启用r
如果您还没有使用hadoop做任何事情，那么这里是一个很好的起点。您可能还想看看hue beeswax作为一个交互式工具，对于数据分析非常有用。

赞(0）回复(0）举报 2021-06-04

我来回答

apachenutch:get outlink url的文本上下文

1条答案

相关问题

热门标签

最新问答