我正在使用Rest-Assured和GSON自动化测试,需要验证POST请求响应中返回的PDF文件的内容。文件的内容各不相同,可以包含任何内容,从文本、文本和表格,或者文本、表格和图形。每个页面都可以,而且很可能会有所不同,就字形内容而言。我只关心PDF页面上的所有文本-无论是纯文本,还是表格内的文本,或者与图像相关的文本。由于请求返回的所有pdf文件都是不同的,我无法定义搜索区域(据我所知)。我只需要提取页面上的所有文本。
我将pdf数据提取到一个字节数组中,如下所示:
Gson pdfGson = new Gson();
byte[] pdfBytes =
pdfGson.fromJson(this.response.as(JsonObject.class)
.get("pdfData").getAsJsonObject().get("data").getAsJsonArray(), byte[].class);
(我尝试过其他提取byte[]的方法,但这是我发现的返回有效数据的唯一方法。)这将返回一个非常大的byte[],如下所示:
[37, 91, 22, 45, 23, ...]
当我解析数组时,我遇到了与This Question相同的问题(除了我的pdf是1.7),我尝试实现可接受的答案,根据我的目的进行了调整,并在iText文档中进行了解释:
byte[] decodedPdfBytes = PdfReader.decodeBytes(pdfBytes, new PdfDictionary(), FilterHandlers.getDefaultFilterHandlers());
IRandomAccessSource source = new RandomAccessSourceFactory().createSource(decodedPdfBytes);
ByteArrayOutputStream baos = new ByteArrayOutputStream();
ReaderProperties readerProperties = new ReaderProperties();
// Ineffective:
readerProperties.setPassword(user.password.getBytes());
PdfReader pdfReader = new PdfReader(source, readerProperties);
// Ineffective:
pdfReader.setUnethicalReading(true);
PdfDocument pdfDoc = new PdfDocument(pdfReader, new PdfWriter(baos));
for(int i = 1; i < pdfDoc.getNumberOfPages(); i++) {
String text = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i));
System.out.println(text);
}
这确实解码了pdf页面,并返回文本,但它只是标题文本。没有返回其他文本。
值得注意的是,在前端,当用户点击按钮生成pdf时,它会返回一个包含下载数据的blob,所以我相对确定元数据是GSA编码的,但我不确定这是否重要。由于敏感材料,我不能分享pdf文档的示例。
我花了3天时间试图找到一个解决方案。
1条答案
按热度按时间vybvopom1#
对于那些寻找解决方案的人来说-最终我们走了一条不同的路线。我们从来没有找到这个具体问题的解决方案。