unilm 对于trocr,您推荐哪种探测器?

tsm1rwdh  于 5个月前  发布在  其他
关注(0)|答案(6)|浏览(62)

您好,TrOCR模型是基于Transformer的光学字符识别模型之一,是目前性能最佳的OCR模型之一。在使用TrOCR模型进行图像识别时,需要先使用边界框检测器对图像进行定位,然后再将定位到的区域输入到TrOCR模型中进行识别。

关于推荐边界框检测器,我建议您可以使用PaddleOCR提供的边界框检测器。PaddleOCR是一个基于PaddlePaddle的OCR工具库,其中包含了多种预训练模型和边界框检测器。

dpiehjr4

dpiehjr42#

你好,@wendlerc 和 @Mohammed20201991。对于结合TrOCR的文本检测器(用于图像上的手写文本),有什么推荐吗?你的见解将对我们有很大帮助。

0md85ypi

0md85ypi3#

在这个仓库中:https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有非常不同的优势和劣势。

kwvwclae

kwvwclae4#

Hi @bit-scientist,正如@wendlerc提到的,除了与其他方法(如PyLiatranskribus)集成外,这可能会有所帮助。

i34xakig

i34xakig5#

在这个仓库中:https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有不同的优势和劣势。

感谢@wendlerc。你能分享一下你的手写样本以供比较吗?事实证明,有些算法只在干净的背景上表现良好。然而,我的样本背景略有不同。

brjng4g3

brjng4g36#

你好,@bit-scientist,正如@wendlerc提到的,除了与其他方法(如PyLiatranskribus)集成外,这可能会有所帮助。

谢谢,@Mohammed20201991。我认为PyLaia可能有所帮助,但是Transkribus是否免费?看起来它不是免费的。

相关问题