unilm 对于trocr,您推荐哪种探测器？

tsm1rwdh 于 5个月前发布在其他

关注(0)|答案(6)|浏览(62)

您好，TrOCR模型是基于Transformer的光学字符识别模型之一，是目前性能最佳的OCR模型之一。在使用TrOCR模型进行图像识别时，需要先使用边界框检测器对图像进行定位，然后再将定位到的区域输入到TrOCR模型中进行识别。

关于推荐边界框检测器，我建议您可以使用PaddleOCR提供的边界框检测器。PaddleOCR是一个基于PaddlePaddle的OCR工具库，其中包含了多种预训练模型和边界框检测器。

6条答案

你好，@wendlerc 和 @Mohammed20201991。对于结合TrOCR的文本检测器(用于图像上的手写文本),有什么推荐吗？你的见解将对我们有很大帮助。

在这个仓库中：https://github.com/LAION-AI/OCR-ensemble,我们主要使用了paddleocr的模型。我们也开始研究https://github.com/open-mmlab/mmocr,它似乎有一个“互补”的文字检测器。互补的意思是它与paddleocr检测器相比具有非常不同的优势和劣势。

Hi @bit-scientist,正如@wendlerc提到的，除了与其他方法(如PyLia和transkribus)集成外，这可能会有所帮助。

感谢@wendlerc。你能分享一下你的手写样本以供比较吗？事实证明，有些算法只在干净的背景上表现良好。然而，我的样本背景略有不同。

你好，@bit-scientist,正如@wendlerc提到的，除了与其他方法(如PyLia和transkribus)集成外，这可能会有所帮助。

谢谢，@Mohammed20201991。我认为PyLaia可能有所帮助，但是Transkribus是否免费？看起来它不是免费的。