我有以下照片:
我尝试从中提取文本,但在检测电子邮件中的dot
时遇到问题!
In [1]: import cv2
In [2]: import pytesseract
In [3]: img = cv2.imread("images/10008.png")
In [4]: text = pytesseract.image_to_string(img,config='--psm 6')
In [5]: text
Out[5]: 'City: CALGARY\n\nProvince: AB\n\nCountry: CANADA\n\nCompany Name: Bonnyville Immigration Services Inc.\nEmail: sujit saha@live.com\n\nPhone Number: 403-805-0007\n'
In [6]:
但是我在网上试过site,如果我选择选项--〉Use OCR Engine5 (Especially strong with text on complex backgrounds/low contrast)
,它就能很容易地检测到这个点
是否有一种方法可以在pytesseract
中复制相同的内容
1条答案
按热度按时间vngu2lb81#
通过添加一些预处理并将lang=“eng”参数设置为tesseract,我成功地过滤了这个图像。
输出=
'City: CALGARY\n\nProvince: AB\n\nCountry: CANADA\n\nCompany Name: Bonnyville Immigration Services Inc.\nEmail: sujit.zaha@live.com\n\nPhone Number: 403-805-0007'