很高兴分享一下,TrOCR现在已经正式发布在HuggingFace Transformers中。
文档:https://huggingface.co/transformers/master/model_doc/trocr.html
有一个网络演示可用:https://huggingface.co/spaces/nielsr/TrOCR-handwritten
我已经制作了3个演示笔记本:
它带有一个新类,名为 VisionEncoderDecoderModel
,可以与任何视觉Transformer编码器(如ViT、DeiT、BEiT)和任何文本Transformer解码器(如BERT、RoBERTa、GPT-2)混合搭配。交叉注意力层的权重是随机初始化的,并打算在下游数据集上进行微调。
我们已经有人将ViT与GPT-2模型结合用于图像标注,可以在 here 找到。这个模型是在JAX/FLAX上使用TPUv3训练的。
4条答案
按热度按时间kzmpq1sx1#
感谢@NielsRogge的辛勤工作!这太棒了!当我们正在使用动态位置嵌入处理TrOCR的小而微小的设置时,是否有任何脚本可以帮助我们将使用fairseq训练的模式转换为HF格式?
dy2hfwbg2#
感谢您的信息!
是的,您可以使用我编写的 this script 将此存储库中的 Fairseq 检查点转换为 HuggingFace 对应项。
编辑:脚本现在位于不同的位置。
hpcdzsge3#
感谢@NielsRogge的辛勤工作!这太棒了!当我们在TrOCR中使用动态位置嵌入处理小型和微型设置时,是否有任何脚本可以将使用fairseq训练的模式转换为HF格式?
文件 "/opt/conda/lib/python3.8/site-packages/torch/distributed/launch.py",第255行,main函数中:
raise subprocess.CalledProcessError(returncode=process.returncode,
subprocess.CalledProcessError:命令 '['/opt/conda/bin/python', '-u', '/opt/conda/bin/fairseq-train', '--local_rank=3', '--data-type', 'STR', '--user-dir', './', '--task', 'text_recognition', '--arch', 'beit_large_decoder_large', ' ']'返回非零退出状态1。
uemypmqf4#
伟大的集成@NielsRogge。我有一个问题。如果我的自定义数据集由两种混合语言组成,TrOcr是否能够识别它们?我认为TrOcr可以识别这些。谢谢。