系统信息
transformers
版本:4.44.0- 平台:macOS-13.6.9-arm64-arm-64bit
- Python 版本:3.11.4
- Huggingface_hub 版本:0.23.4
- Safetensors 版本:0.4.3
- Accelerate 版本:0.32.1
- Accelerate 配置:未找到
- PyTorch 版本(GPU?):2.4.0(False)
- Tensorflow 版本(GPU?):未安装(NA)
- Flax 版本(CPU?/GPU?/TPU?):未安装(NA)
- Jax 版本:未安装
- JaxLib 版本:未安装
- 在脚本中使用分布式或并行设置?:否
谁可以帮忙?
@ArthurZucker
信息
- 官方示例脚本
- 我自己的修改过的脚本
任务
examples
文件夹中的一个官方支持的任务(如GLUE/SQuAD等)- 我自己的任务或数据集(以下详细说明)
重现问题
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
text = "the quick brown fox jumps over the lazy dog"
out = tokenizer(text)
out.char_to_token(0)
对于任何非零的字符索引,这都返回None
此外,token_to_char
不返回预期的结果:out.token_to_chars(4)
返回CharSpan(start=15, end=15)
而不是 CharSpan(start=15, end=19)
预期行为
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
text = "the quick brown fox jumps over the lazy dog"
out = tokenizer(text)
out.char_to_token(0)
应返回 1
out.token_to_chars(4)
应返回 CharSpan(start=15, end=19)
4条答案
按热度按时间qco9c6ql1#
我认为这与 huggingface/transformers#25082 有关,与其说与
transformers
有关,不如说更与tokenizers
相关。flvtvl502#
我无法提供一个固定的答案,但确实如此。
ukdjmx9f3#
我应该在那个仓库里打开这个问题吗?这对于$x_{1e0f1}^{x}$确实很需要。
dgsult0t4#
是的,这基本上与#1553相同,因为偏移量是错误的,仅使用它们的字符到令牌也输出错误的输出。让我转移这个问题!