描述
我正在使用的模型(LayoutReader):感谢您的工作,我尝试使用您预训练的模型和Tesseract的OCR结果进行推理,但遇到了一些问题:
bboxes = sorted(bboxes, lambda x: [x[0], x[1]])
63lcw9qa1#
你正在使用哪个数据集?
8fq7wneg2#
你使用的是哪个数据集?我并没有使用任何数据集,我只是使用Tesseract从图像中获取OCR结果,并尝试使用提供的预训练模型进行推理。
fcg9iug33#
@animebing,LayoutReader是为使用您自己的数据集或ReadingBank进行模型训练而设计的。最好为您的领域提供标记数据并为应用程序训练一个模型。
6mzjoqzu4#
你的意思是每个数据集都需要自定义左-右-上-下吗?但是如果我想使用Tesseract获取OCR结果来评估预训练模型在真实世界图像中的表现,我应该如何组织bboxes以满足预训练模型的左-右-上-下?
hwamh0ep5#
LayoutReader是按照从左到右、从上到下的顺序进行训练的,因此在实际应用中建议采用类似的设置。我猜想你提到的差异可能是因为在实际应用中bboxes没有很好地对齐,这意味着即使两个词在同一行,y轴上的差异也可能非常小。
我假设bboxes表示为[x0, y0, x1, y1],所以如果你使用bboxes = sorted(bboxes, lambda x: [x[0], x[1]])对单词进行排序,实际上你是按照列优先的顺序对单词进行排序的。
所以请仔细检查你的代码,并在对bboxes进行排序时尝试一些软排序机制。然后查看结果。
gjmwrych6#
LayoutReader是按照从左到右、从上到下的顺序进行训练的,因此建议在实际应用中也采用类似的设置。我猜想您提到的差异可能是因为在实际应用中bboxes没有很好地对齐,这意味着即使两个单词在同一行,y轴上也可能存在非常小的差异。此外,我假设bboxes表示为[x0, y0, x1, y1],因此如果您使用bboxes = sorted(bboxes, lambda x: [x[0], x[1]])对单词进行排序,实际上是在按列优先的顺序对单词进行排序。所以请仔细检查您的代码,并在对bboxes进行排序时尝试一些软排序机制。然后查看结果。
6条答案
按热度按时间63lcw9qa1#
你正在使用哪个数据集?
8fq7wneg2#
你使用的是哪个数据集?
我并没有使用任何数据集,我只是使用Tesseract从图像中获取OCR结果,并尝试使用提供的预训练模型进行推理。
fcg9iug33#
@animebing,LayoutReader是为使用您自己的数据集或ReadingBank进行模型训练而设计的。最好为您的领域提供标记数据并为应用程序训练一个模型。
6mzjoqzu4#
你的意思是每个数据集都需要自定义左-右-上-下吗?但是如果我想使用Tesseract获取OCR结果来评估预训练模型在真实世界图像中的表现,我应该如何组织bboxes以满足预训练模型的左-右-上-下?
hwamh0ep5#
LayoutReader是按照从左到右、从上到下的顺序进行训练的,因此在实际应用中建议采用类似的设置。我猜想你提到的差异可能是因为在实际应用中bboxes没有很好地对齐,这意味着即使两个词在同一行,y轴上的差异也可能非常小。
我假设bboxes表示为[x0, y0, x1, y1],所以如果你使用
bboxes = sorted(bboxes, lambda x: [x[0], x[1]])
对单词进行排序,实际上你是按照列优先的顺序对单词进行排序的。所以请仔细检查你的代码,并在对bboxes进行排序时尝试一些软排序机制。然后查看结果。
gjmwrych6#
LayoutReader是按照从左到右、从上到下的顺序进行训练的,因此建议在实际应用中也采用类似的设置。我猜想您提到的差异可能是因为在实际应用中bboxes没有很好地对齐,这意味着即使两个单词在同一行,y轴上也可能存在非常小的差异。
此外,我假设bboxes表示为[x0, y0, x1, y1],因此如果您使用
bboxes = sorted(bboxes, lambda x: [x[0], x[1]])
对单词进行排序,实际上是在按列优先的顺序对单词进行排序。所以请仔细检查您的代码,并在对bboxes进行排序时尝试一些软排序机制。然后查看结果。