通过所有深度的所有子发现的URL从种子URL发出自定义元数据

p1tboqfb  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(262)

我有一个风暴爬虫为基础的项目,索引的所有内容和solr集合的状态。对于每个seedurl,我有一些元数据需要通过每个seedurl的所有子级发出。例如,我的数据结构类似于:
<crawlid,seedurl,mymetadata>
如何向每个seedurl的所有发现的子级发出crawlid和相应的元数据?是否有任何内置的功能,我们可以使用它或没有?

dgsult0t

dgsult0t1#

metadata.transfer是您需要的,请参见原型中的conf

相关问题