我遵循以下教程使用stormcrawler对内容进行爬网,然后将其存储在elasticsearch中:https://www.youtube.com/watch?v=kterugu12ty . 但是,我想在每个文档中添加它被爬网的日期。有人能告诉我怎么做吗?通常,如何更改已爬网内容的字段?提前谢谢
8ftvxx2r1#
一种选择是在elasticsearch中创建一个摄取管道来填充一个日期字段,如下所述。或者,您必须编写一个定制的解析过滤器,将日期放入元数据中,然后在配置中使用indexer.md.mapping对其进行索引。使此操作更简单可能会有用,请随意在github上打开一个问题(或者更好地提供一些代码),以便es索引器可以检查用于指示当前日期存储位置的字段名的配置,例如es.now.field。
1条答案
按热度按时间8ftvxx2r1#
一种选择是在elasticsearch中创建一个摄取管道来填充一个日期字段,如下所述。或者,您必须编写一个定制的解析过滤器,将日期放入元数据中,然后在配置中使用indexer.md.mapping对其进行索引。
使此操作更简单可能会有用,请随意在github上打开一个问题(或者更好地提供一些代码),以便es索引器可以检查用于指示当前日期存储位置的字段名的配置,例如es.now.field。