python-3.x 使用AZURE Form Recognizer训练带标签的OCR表单时,出现“找不到任何OCR文件可供训练”

p5cysglq  于 2023-01-14  发布在  Python
关注(0)|答案(2)|浏览(134)

在使用AZURE表单识别器训练标记的OCR表单时,得到“找不到任何用于训练的OCR文件”。我的blob中有标记的文件。
POST API请求:-

{
    "source":"https://blobstoragefg.blob.core.windows.net/trainsupervised?sp=racwdli&st=2022-12-04T01:40:39Z&se=2022-12-31T09:40:39Z&spr=https&sv=2021-06-08&sr=c&sig=73kKnD88Bx4xOBNKUsdWxbypksIOpYjPIQDicU5ufHE%3D",
    "sourceFilter": {
        "prefix":"Invoice_",
        "includeSubFolders":false
    },
    "useLabelFIle":true
}

GET API响应:-

{
    "modelInfo": {
        "modelId": "622bf015-6a89-45d5-a576-98e798b72775",
        "status": "invalid",
        "createdDateTime": "2022-12-06T00:10:38Z",
        "lastUpdatedDateTime": "2022-12-06T00:10:39Z"
    },
    "trainResult": {
        "averageModelAccuracy": 0.0,
        "errors": [
            {
                "code": "2100",
                "message": "Can't find any OCR files for training."
            }
        ]
    }
}

标记OCR文件的证据:-

huwehgph

huwehgph1#

是,表单识别器正在处理预先训练的模型,该模型可以识别文档中的键值对、文本和表格,以及作为输入上载的文件中的表格内容。即使文件在段落中包含大量文本,并且在中间或任何位置包含表格内容,也会被识别。

标记OCR文件引用此Link

有关更多信息,请参考此SO主题和GitHub链接。

oyxsuwqo

oyxsuwqo2#

发生错误的原因是Form Recognizer Studio无法访问Blob存储。要启用该功能
1.转到Blob存储资源
1.选择相关容器
1.单击“更改访问级别
1.选择容器和blob的匿名读访问选项。

相关问题