在android中使用tesseract创建可搜索的pdf

htzpubme 于 2021-06-30 发布在 Java

关注(0)|答案(1)|浏览(394)

我被我的客户雇佣来创建一个android应用程序，它将使用tesseract对图像执行ocr，将图像转换为可搜索的pdf。
目前我能够提取文本图像使用此代码；

String extractText(String imagePath)
  {
  dataPath= Environment.getExternalStorageDirectory().toString() + "/Android/data/" + appContext.getPackageName() +  "/"; 
    File tessdata = new File(dataPath); 
   if (!tessdata.exists() || !tessdata.isDirectory())
   {
       throw new IllegalArgumentException("Data path must contain subfolder tessdata!");   
} 
     Bitmap image= BitmapFactory.decodeFile(imagePath);
  TessBaseAPI baseApi = new TessBaseAPI();
  baseApi.init(dataPath, "eng"); 

baseApi.setImage(image);
      String recognizedText = baseApi.getUTF8Text();
      baseApi.end();

      return recognizedText;
  }

上面的代码帮助我将图像上的文本作为字符串准确地获取，但我不知道如何使用此文本创建可搜索的pdf。

Java android ocr tesseract

来源：https://stackoverflow.com/questions/65379713/create-searchable-pdf-with-tesseract-in-android