elasticsearch fscrawler获取restapi响应中的提取文本

qhhrdooz  于 2023-03-17  发布在  ElasticSearch
关注(0)|答案(1)|浏览(156)

我用elasticsearch实现了fscrawler。Rest是启用的。我可以向fscrawler发布一个文件,文本被正确提取并放入elasticsearch索引中。我可以用Kibana验证这一点。
我无法在响应中获得提取的文本。
我在_settings. yaml中尝试了几种设置,但是我没有在响应中得到文本,除非我添加debug=true作为queryParam调用fscrawler端点。

http://localhost:8080/_document?debug=true

端点直接用postman调用。
这里是我的_设置.yaml

---
name: "idx"
fs:
  indexed_chars: 100%
  lang_detect: true
  continue_on_error: true
  logging: ERROR

  ocr:
    language: "eng"
    enabled: true
    pdf_strategy: "auto"
elasticsearch:
  nodes:
    - url: "https://elasticsearch:9200"
  username: "elastic"
  password: "Test123"
  ssl_verification: false
  store_source: true
  index_content: true
rest :
  url: "http://fscrawler:8080"

我的fscrawler形象:

dadoonet/fscrawler:2.10-SNAPSHOT

弹性堆栈版本:8.6.2
答复:

{
    "ok": true,
    "filename": "JAVASCRIPT.pdf",
    "url": "https://elasticsearch:9200/idx/_doc/337d3e366ce4b765f650c5a87011e117"
}

我发现没有办法在响应中获得提取的文本,除非像我提到的那样设置?debug=true。

d6kp6zgx

d6kp6zgx1#

您可以调用Elasticsearch来获取索引文档:

curl https://localhost:9200/idx/_doc/337d3e366ce4b765f650c5a87011e117

或者调用fscrawler的模拟API。

相关问题