bounty将在5天后过期。回答此问题可获得+50声望奖励。Andy希望引起更多人对此问题的关注:srt文件很大,需要作为整个文档进行索引。用相应的时间戳索引单个句子不是我要找的。
1
00:02:17,440 --> 00:02:20,375
Hello Bob,
2
00:02:20,476 --> 00:02:22,501
how are you doing today?
...
考虑一个标准的.srt文件,它包含带有时间戳信息的文本数据,用于在客户端以正确的时间间隔显示音频。
我需要将这个文本数据索引到Elasticsearch中,同时保留时间戳信息。我目前使用的是一个自定义格式化程序,它将时间戳包含在句子中。例如:
(137)你好,鲍勃,今天过得怎么样?(142)
这表示句子开始于第137秒,结束于第142秒。
但是,我不确定这种方法是否是处理时间戳的最佳方法。
2条答案
按热度按时间9fkzdhlc1#
您可以为开始和结束时间戳创建一个字段,然后使用范围查询来检索相关的文本数据。当您要对时间戳相关信息进行操作时,此方法允许进行更复杂的查询和筛选。
您还可以考虑使用Elasticsearch“date”数据类型作为时间戳,允许您对数据执行基于日期的查询和聚合。
xmd2e60i2#
另一种方法是使用filebeat: