apachenutch:get outlink url的文本上下文

kq0g1dla  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(309)

任何人都知道一种有效的方法来提取 Package 大纲链接url的文本上下文。例如,给定包含大纲链接的示例文本:
nutch可以在一台机器上运行,但是在hadoop集群中运行可以获得很多优势。你可以在这里下载nutch。有关apachenutch的更多信息,请参阅nutchwiki。
在这个例子中,我想得到包含链接的句子,以及该句子前后的一个句子。有什么办法能有效地做到这一点吗?我可以调用任何方法来获取获取的内容中链接的位置之类的内容吗?或者我可以修改一部分nutch代码来实现这一点?谢谢!

nfs0ujit

nfs0ujit1#

你要做的是网页抓取。python和hadoop为此提供了工具。要实现它,可以使用选择器。
下面是一些使用python scrapy的示例:
选择器
刮痧教程
在hadoop上,最好的方法是使用选择器实现爬网:
使用hadoop进行web爬网
在此处输入链接说明
Hive
级联可用于寻址指定的url:
hadoop和级联
获得数据后,还可以使用r优化分析:
r和hadoop
在hadoop上启用r
如果您还没有使用hadoop做任何事情,那么这里是一个很好的起点。您可能还想看看hue beeswax作为一个交互式工具,对于数据分析非常有用。

相关问题