如何使用OpenCV for pytesseract在图像上删除矩形轮廓并提取文本？

agxfikkp 于 2023-06-06 发布在其他

关注(0)|答案(1)|浏览(121)

我想从这个image中提取文本。我试着删除矩形轮廓，所以我开始检测形成盒子的水平线和垂直线。但我发现了一个问题，一些字符像素被错误地识别为垂直线。以获得一个没有矩形框的干净图像，只包含行文本，所以我可以应用pytesseract进行文本提取。
你能提供任何建议来移除矩形框吗？
谢谢你！

import cv2
from PIL import Image
import matplotlib.pylab as plt

image = io.imread("sample.png")
result = image.copy()
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]

#Remove horizontal lines
horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (40,1))
remove_horizontal = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, horizontal_kernel, iterations=2)
cnts = cv2.findContours(remove_horizontal, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    cv2.drawContours(result, [c], -1, (255,255,255), 5)
plt.imshow(result)

removing horizontal lines

# Remove vertical lines
vertical_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1,40))
remove_vertical = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, vertical_kernel, iterations=2)
cnts = cv2.findContours(remove_vertical, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
for c in cnts:
    cv2.drawContours(result, [c], -1, (255,255,255), 5)

plt.imshow(result)

removing horizontal and vertical lines

opencv

来源：https://stackoverflow.com/questions/76403242/how-can-i-remove-rectangular-contour-and-extract-text-with-opencv-for-pytesserac

1条答案

按热度按时间

5hcedyr01#

您可以尝试在图像中查找连接的组件，并过滤掉那些太宽或太高的组件。例如：

import cv2
import numpy as np 

im=cv2.imread('0AASU.png', cv2.IMREAD_GRAYSCALE)
im_monochrome=cv2.threshold(im, 127,255,cv2.THRESH_BINARY_INV)[1]
_, labels,stats,_=cv2.connectedComponentsWithStats(im_monochrome)
idx=np.nonzero((stats[:,2]>150) | (stats[:,3]>150)) # select CC with h>150 or w>150 px.
result=255*np.uint8(np.isin(labels, idx)) # remove this CC
cv2.imwrite( 'result.png', result)

赞(0）回复(0）举报 2023-06-06

我来回答

如何使用OpenCV for pytesseract在图像上删除矩形轮廓并提取文本？

1条答案

相关问题

热门标签

最新问答