elasticsearch fscrawler获取restapi响应中的提取文本

qhhrdooz 于 2023-03-17 发布在 ElasticSearch

关注(0)|答案(1)|浏览(157)

我用elasticsearch实现了fscrawler。Rest是启用的。我可以向fscrawler发布一个文件，文本被正确提取并放入elasticsearch索引中。我可以用Kibana验证这一点。
我无法在响应中获得提取的文本。
我在_settings. yaml中尝试了几种设置，但是我没有在响应中得到文本，除非我添加debug=true作为queryParam调用fscrawler端点。

http://localhost:8080/_document?debug=true

端点直接用postman调用。
这里是我的_设置.yaml

---
name: "idx"
fs:
  indexed_chars: 100%
  lang_detect: true
  continue_on_error: true
  logging: ERROR

  ocr:
    language: "eng"
    enabled: true
    pdf_strategy: "auto"
elasticsearch:
  nodes:
    - url: "https://elasticsearch:9200"
  username: "elastic"
  password: "Test123"
  ssl_verification: false
  store_source: true
  index_content: true
rest :
  url: "http://fscrawler:8080"

我的fscrawler形象：

dadoonet/fscrawler:2.10-SNAPSHOT

弹性堆栈版本：8.6.2
答复：

{
    "ok": true,
    "filename": "JAVASCRIPT.pdf",
    "url": "https://elasticsearch:9200/idx/_doc/337d3e366ce4b765f650c5a87011e117"
}

我发现没有办法在响应中获得提取的文本，除非像我提到的那样设置？debug=true。

elasticsearch

来源：https://stackoverflow.com/questions/75642175/fscrawler-get-extracted-text-in-restapi-response

1条答案

按热度按时间

d6kp6zgx1#

您可以调用Elasticsearch来获取索引文档：

curl https://localhost:9200/idx/_doc/337d3e366ce4b765f650c5a87011e117

或者调用fscrawler的模拟API。

赞(0）回复(0）举报 2023-03-17

我来回答

elasticsearch fscrawler获取restapi响应中的提取文本

1条答案

相关问题

热门标签

最新问答