我用elasticsearch实现了fscrawler。Rest是启用的。我可以向fscrawler发布一个文件,文本被正确提取并放入elasticsearch索引中。我可以用Kibana验证这一点。
我无法在响应中获得提取的文本。
我在_settings. yaml中尝试了几种设置,但是我没有在响应中得到文本,除非我添加debug=true作为queryParam调用fscrawler端点。
http://localhost:8080/_document?debug=true
端点直接用postman调用。
这里是我的_设置.yaml
---
name: "idx"
fs:
indexed_chars: 100%
lang_detect: true
continue_on_error: true
logging: ERROR
ocr:
language: "eng"
enabled: true
pdf_strategy: "auto"
elasticsearch:
nodes:
- url: "https://elasticsearch:9200"
username: "elastic"
password: "Test123"
ssl_verification: false
store_source: true
index_content: true
rest :
url: "http://fscrawler:8080"
我的fscrawler形象:
dadoonet/fscrawler:2.10-SNAPSHOT
弹性堆栈版本:8.6.2
答复:
{
"ok": true,
"filename": "JAVASCRIPT.pdf",
"url": "https://elasticsearch:9200/idx/_doc/337d3e366ce4b765f650c5a87011e117"
}
我发现没有办法在响应中获得提取的文本,除非像我提到的那样设置?debug=true。
1条答案
按热度按时间d6kp6zgx1#
您可以调用Elasticsearch来获取索引文档:
或者调用fscrawler的模拟API。