使用stormcrawler(和elasticsearch)向爬网内容添加字段

jm81lzqq  于 2021-06-24  发布在  Storm
关注(0)|答案(1)|浏览(275)

我遵循以下教程使用stormcrawler对内容进行爬网,然后将其存储在elasticsearch中:https://www.youtube.com/watch?v=kterugu12ty . 但是,我想在每个文档中添加它被爬网的日期。有人能告诉我怎么做吗?
通常,如何更改已爬网内容的字段?
提前谢谢

8ftvxx2r

8ftvxx2r1#

一种选择是在elasticsearch中创建一个摄取管道来填充一个日期字段,如下所述。或者,您必须编写一个定制的解析过滤器,将日期放入元数据中,然后在配置中使用indexer.md.mapping对其进行索引。
使此操作更简单可能会有用,请随意在github上打开一个问题(或者更好地提供一些代码),以便es索引器可以检查用于指示当前日期存储位置的字段名的配置,例如es.now.field。

相关问题