我想编写JavaScript代码来从PDF文件中提取所有图像文件,可能是JPG或其他图像格式。已经有一些JavaScript代码用于阅读PDF文件,例如在PDF查看器pdf-js中。
window.addEventListener('change', function webViewerChange(evt) {
var files = evt.target.files;
if (!files || files.length === 0)
return;
// Read the local file into a Uint8Array.
var fileReader = new FileReader();
fileReader.onload = function webViewerChangeFileReaderOnload(evt) {
var buffer = evt.target.result;
var uint8Array = new Uint8Array(buffer);
PDFView.open(uint8Array, 0);
};
var file = files[0];
fileReader.readAsArrayBuffer(file);
PDFView.setTitleUsingUrl(file.name);
........
此代码可以用于从PDF文件中提取图像吗?
2条答案
按热度按时间kmynzznz1#
例如,如果您使用
pdf.js
打开一个页面然后可以使用
getOperatorList
搜索paintJpegXObject
对象并获取资源。现在
args
将有一个需要从该页面获取的资源列表。应该在控制台上打印一堆
<img />
对象,这些对象带有data-urisrc=
属性。这些对象可以直接插入到页面中,也可以通过编写更多脚本来获取原始数据。它只适用于嵌入的JPEG对象,但它是一个开始!
gcmastyq2#
这是一个link的工作示例,从pdf中获取图像,并将alpha通道添加到Uint8ClampedArray中以便能够显示它。它在画布中显示图像。
代码段中的示例:https://codepen.io/allandiego/pen/RwVGbyj
从画布获取数据URL以便能够在img标记中显示它: