任何人都知道一种有效的方法来提取 Package 大纲链接url的文本上下文。例如,给定包含大纲链接的示例文本:nutch可以在一台机器上运行,但是在hadoop集群中运行可以获得很多优势。你可以在这里下载nutch。有关apachenutch的更多信息,请参阅nutchwiki。在这个例子中,我想得到包含链接的句子,以及该句子前后的一个句子。有什么办法能有效地做到这一点吗?我可以调用任何方法来获取获取的内容中链接的位置之类的内容吗?或者我可以修改一部分nutch代码来实现这一点?谢谢!
nfs0ujit1#
你要做的是网页抓取。python和hadoop为此提供了工具。要实现它,可以使用选择器。下面是一些使用python scrapy的示例:选择器刮痧教程在hadoop上,最好的方法是使用选择器实现爬网:使用hadoop进行web爬网在此处输入链接说明Hive级联可用于寻址指定的url:hadoop和级联获得数据后,还可以使用r优化分析:r和hadoop在hadoop上启用r如果您还没有使用hadoop做任何事情,那么这里是一个很好的起点。您可能还想看看hue beeswax作为一个交互式工具,对于数据分析非常有用。
1条答案
按热度按时间nfs0ujit1#
你要做的是网页抓取。python和hadoop为此提供了工具。要实现它,可以使用选择器。
下面是一些使用python scrapy的示例:
选择器
刮痧教程
在hadoop上,最好的方法是使用选择器实现爬网:
使用hadoop进行web爬网
在此处输入链接说明
Hive
级联可用于寻址指定的url:
hadoop和级联
获得数据后,还可以使用r优化分析:
r和hadoop
在hadoop上启用r
如果您还没有使用hadoop做任何事情,那么这里是一个很好的起点。您可能还想看看hue beeswax作为一个交互式工具,对于数据分析非常有用。