tokenizers 无法加载自定义GPT2分词器 - "数据与未标记的枚举ModelWrapper中的任何变体不匹配" 错误

72qzrwbm 于 4个月前发布在其他

关注(0)|答案(3)|浏览(97)

当我尝试使用GPT2TokenizerFast加载自定义合并的GPT2分词器时遇到了一个问题。尽管确保了tokenizer.json文件格式正确，但我收到了以下错误：
数据与未标记的枚举ModelWrapper的任何变体都不匹配，位于第1行第3193814列
tokenizer-2.json

来源：https://github.com/huggingface/tokenizers/issues/1562

3条答案

按热度按时间

这个问题已经过期，因为它已经打开了30天，没有活动。请移除过期标签或评论，否则将在5天内关闭。

赞(0）回复(0）举报 4个月前

嘿！现在看一看！

赞(0）回复(0）举报 4个月前

好的，一件事是你的分词器似乎有两个预分词器，没有被包裹在一个序列中，这非常奇怪😅 你是如何合并的？

赞(0）回复(0）举报 4个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前