当使用R中paws
包中的textract
时,start_document_analysis
调用需要DocumentLocation
中S3Object的路径。
textract$start_document_analysis(
DocumentLocation = list(
S3Object = list(Bucket = bucket, Name = file)
)
)
可以在没有S3Object的情况下使用DocumentLocation
吗?我宁愿只提供本地PDF的路径。
2条答案
按热度按时间xurqigkl1#
start_document_analysis API只支持提供s3对象作为输入,而不支持像analyze_document api那样提供base64编码的字符串(另请参阅https://docs.aws.amazon.com/cli/latest/reference/textract/start-document-analysis.html上的CLI文档)
因此,不幸的是,您必须使用S3作为(临时)存储数据的地方。当然,你可以写自己的逻辑来做到这一点:)。伟大的教程,可以在https://www.gormanalysis.com/blog/connecting-to-aws-s3-with-r/找到,因为你已经设置了凭证等。例如,您可以跳过许多步骤并从步骤3开始。
dgtucam12#
paws
还支持同步功能:https://www.paws-r-sdk.com/docs/textract/例如https://www.paws-r-sdk.com/docs/textract_detect_document_text/,但要小心,因为示例并不总是完美的。在这种情况下,他们说它接受一个论点:
Document [required] The input document as base64-encoded bytes or an Amazon S3 object.
沿着以下示例:但是,向
Bytes
提供base64字符串将抛出错误:相反,您可以提供文件路径:
在这种情况下,请尝试使用
analyze_document
。