想问一下,目前打算从头训练 CRNN 模型,要预测的内容为电脑上软体GUI界面截图内容包含英文文字、ASCII符号、数字。
在不确定要预测的字体情况下打算先找寻类似文字字体,
资料集打算只用随机生成合成图片 + 随机颜色背景,预计一个 label 至少出现 3000次,
所以英文字(52个)生成 16 万张,数字 (10个) 生成 3 万张,ASCII符号(32个)生成10万张,
因为只针对软体GUI界面基本文字所以不打算加入 Augmentation 变形,但好像又容易过拟和。
所以主要问题为:
- 请问这样的 scenario,还有需要加入真实图片达到 1:1 ~ 1:3 吗?
- 在软体 GUI 上英文出现的频率比符号和数字还多,那这样生成合成的资料集平衡是否正确?
2条答案
按热度按时间insrf1ej1#
yizd12fk2#
@tink2123 感谢回复,
那目前会遇到过拟合的问题,所以还是需要加入TIA 图像变形扩充,以增加j文字复杂度 ?
那问一下这样的资料集数量是否合理?
目前预测的结果,在某些相似字还是会辨别错误,例如: A,4 S,5 -,~