GSON / iText：从PDF提取文本1.7字节[]

rjee0c15 于 2022-11-06 发布在其他

关注(0)|答案(1)|浏览(202)

我正在使用Rest-Assured和GSON自动化测试，需要验证POST请求响应中返回的PDF文件的内容。文件的内容各不相同，可以包含任何内容，从文本、文本和表格，或者文本、表格和图形。每个页面都可以，而且很可能会有所不同，就字形内容而言。我只关心PDF页面上的所有文本-无论是纯文本，还是表格内的文本，或者与图像相关的文本。由于请求返回的所有pdf文件都是不同的，我无法定义搜索区域（据我所知）。我只需要提取页面上的所有文本。
我将pdf数据提取到一个字节数组中，如下所示：

Gson pdfGson = new Gson();
        byte[] pdfBytes =
            pdfGson.fromJson(this.response.as(JsonObject.class)
                    .get("pdfData").getAsJsonObject().get("data").getAsJsonArray(), byte[].class);

（我尝试过其他提取byte[]的方法，但这是我发现的返回有效数据的唯一方法。）这将返回一个非常大的byte[]，如下所示：

[37, 91, 22, 45, 23, ...]

当我解析数组时，我遇到了与This Question相同的问题（除了我的pdf是1.7），我尝试实现可接受的答案，根据我的目的进行了调整，并在iText文档中进行了解释：

byte[] decodedPdfBytes = PdfReader.decodeBytes(pdfBytes, new PdfDictionary(), FilterHandlers.getDefaultFilterHandlers());

    IRandomAccessSource source = new RandomAccessSourceFactory().createSource(decodedPdfBytes);
    ByteArrayOutputStream baos = new ByteArrayOutputStream();
    ReaderProperties readerProperties = new ReaderProperties();

    // Ineffective:
    readerProperties.setPassword(user.password.getBytes());
    PdfReader pdfReader = new PdfReader(source, readerProperties);
    // Ineffective:
    pdfReader.setUnethicalReading(true);

    PdfDocument pdfDoc = new PdfDocument(pdfReader, new PdfWriter(baos));

    for(int i = 1; i < pdfDoc.getNumberOfPages(); i++) {
        String text = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i));
        System.out.println(text);
    }

这确实解码了pdf页面，并返回文本，但它只是标题文本。没有返回其他文本。
值得注意的是，在前端，当用户点击按钮生成pdf时，它会返回一个包含下载数据的blob，所以我相对确定元数据是GSA编码的，但我不确定这是否重要。由于敏感材料，我不能分享pdf文档的示例。
我花了3天时间试图找到一个解决方案。

Gson

来源：https://stackoverflow.com/questions/64048654/gson-itext-extract-text-from-pdf-1-7-byte