使用JavaScript从PDF文件中提取图像

68bkxrlz 于 2022-12-10 发布在 Java

关注(0)|答案(2)|浏览(385)

我想编写JavaScript代码来从PDF文件中提取所有图像文件，可能是JPG或其他图像格式。已经有一些JavaScript代码用于阅读PDF文件，例如在PDF查看器pdf-js中。

window.addEventListener('change', function webViewerChange(evt) {
  var files = evt.target.files;
  if (!files || files.length === 0)
    return;

  // Read the local file into a Uint8Array.
  var fileReader = new FileReader();
  fileReader.onload = function webViewerChangeFileReaderOnload(evt) {
    var buffer = evt.target.result;
    var uint8Array = new Uint8Array(buffer);
    PDFView.open(uint8Array, 0);
  };

  var file = files[0];
  fileReader.readAsArrayBuffer(file);
  PDFView.setTitleUsingUrl(file.name);
  ........

此代码可以用于从PDF文件中提取图像吗？

JavaScript

来源：https://stackoverflow.com/questions/18680261/extract-images-from-pdf-file-with-javascript

2条答案

按热度按时间

kmynzznz1#

例如，如果您使用pdf.js打开一个页面

PDFJS.getDocument({url: <pdf file>}).then(function (doc) {
    doc.getPage(1).then(function (page) {
        window.page = page;
    })
})

然后可以使用getOperatorList搜索paintJpegXObject对象并获取资源。

window.objs = []
page.getOperatorList().then(function (ops) {
    for (var i=0; i < ops.fnArray.length; i++) {
        if (ops.fnArray[i] == PDFJS.OPS.paintJpegXObject) {
            window.objs.push(ops.argsArray[i][0])
        }
    }
})

现在args将有一个需要从该页面获取的资源列表。

console.log(window.args.map(function (a) { page.objs.get(a) }))

应该在控制台上打印一堆<img />对象，这些对象带有data-uri src=属性。这些对象可以直接插入到页面中，也可以通过编写更多脚本来获取原始数据。
它只适用于嵌入的JPEG对象，但它是一个开始！

赞(0）回复(0）举报 2022-12-10

gcmastyq2#

这是一个link的工作示例，从pdf中获取图像，并将alpha通道添加到Uint8ClampedArray中以便能够显示它。它在画布中显示图像。
代码段中的示例：https://codepen.io/allandiego/pen/RwVGbyj
从画布获取数据URL以便能够在img标记中显示它：

const canvas = document.createElement('canvas');
canvas.width = imageWidth;
canvas.height = imageHeight;
const ctx = canvas.getContext('2d');
ctx!.putImageData(imageData, 0, 0);
const dataURL = canvas.toDataURL();

赞(0）回复(0）举报 2022-12-10

我来回答

使用JavaScript从PDF文件中提取图像

2条答案

相关问题

热门标签

最新问答