有任何限制重定向在stormcrawler?

plupiseo  于 2021-06-21  发布在  Storm
关注(0)|答案(1)|浏览(400)

我能看到 _redirTo elasticsearch状态索引中的标记。有关重定向的几个问题如下:
重定向有限制吗?所以它不应该以重定向循环结束?
有多少个特定的已获取url重定向?我只能看到一个重定向 _redirTo 直接的标签。如果url有两个或三个重定向,则无法获取重定向计数?

dgtucam1

dgtucam11#

您可以设置种子的深度限制,请参阅maxdepth url filter,但不能直接设置连续重定向的数量。
正如您所注意到的,我们只跟踪给定文档重定向到的url。
如果您想控制redir的数量,而不考虑与种子的距离,一种方法是在协议实现中扩展或修改metadatatransfer或处理redir,缺点是这样做不会检查是否已经获取了目标url。
更新有一个名为“redirections.allowed”的配置元素,默认值为true。我刚刚为simplefetcherbolt推出了一个修复程序,因为它没有得到正确的处理。

相关问题