您好,TrOCR模型是基于Transformer的光学字符识别模型之一,是目前性能最佳的OCR模型之一。在使用TrOCR模型进行图像识别时,需要先使用边界框检测器对图像进行定位,然后再将定位到的区域输入到TrOCR模型中进行识别。
关于推荐边界框检测器,我建议您可以使用PaddleOCR提供的边界框检测器。PaddleOCR是一个基于PaddlePaddle的OCR工具库,其中包含了多种预训练模型和边界框检测器。
5lhxktic1#
+1
dpiehjr42#
你好,@wendlerc 和 @Mohammed20201991。对于结合TrOCR的文本检测器(用于图像上的手写文本),有什么推荐吗?你的见解将对我们有很大帮助。
0md85ypi3#
在这个仓库中:https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有非常不同的优势和劣势。
kwvwclae4#
Hi @bit-scientist,正如@wendlerc提到的,除了与其他方法(如PyLia和transkribus)集成外,这可能会有所帮助。
i34xakig5#
在这个仓库中:https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有不同的优势和劣势。
感谢@wendlerc。你能分享一下你的手写样本以供比较吗?事实证明,有些算法只在干净的背景上表现良好。然而,我的样本背景略有不同。
brjng4g36#
你好,@bit-scientist,正如@wendlerc提到的,除了与其他方法(如PyLia和transkribus)集成外,这可能会有所帮助。
谢谢,@Mohammed20201991。我认为PyLaia可能有所帮助,但是Transkribus是否免费?看起来它不是免费的。
6条答案
按热度按时间5lhxktic1#
+1
dpiehjr42#
你好,@wendlerc 和 @Mohammed20201991。对于结合TrOCR的文本检测器(用于图像上的手写文本),有什么推荐吗?你的见解将对我们有很大帮助。
0md85ypi3#
在这个仓库中:https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有非常不同的优势和劣势。
kwvwclae4#
Hi @bit-scientist,正如@wendlerc提到的,除了与其他方法(如PyLia和transkribus)集成外,这可能会有所帮助。
i34xakig5#
在这个仓库中:https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有不同的优势和劣势。
感谢@wendlerc。你能分享一下你的手写样本以供比较吗?事实证明,有些算法只在干净的背景上表现良好。然而,我的样本背景略有不同。
brjng4g36#
你好,@bit-scientist,正如@wendlerc提到的,除了与其他方法(如PyLia和transkribus)集成外,这可能会有所帮助。
谢谢,@Mohammed20201991。我认为PyLaia可能有所帮助,但是Transkribus是否免费?看起来它不是免费的。