PyTorch的torchtext可以通过sentencepiece-numericalizer
将令牌转换为整数。例如"is" -> 17"
。
那么从整数到令牌的逆操作呢?例如17 --> "is"
。我该怎么做?https://pytorch.org/text/stable/data_functional.html API文档中没有列出。
PyTorch的torchtext可以通过sentencepiece-numericalizer
将令牌转换为整数。例如"is" -> 17"
。
那么从整数到令牌的逆操作呢?例如17 --> "is"
。我该怎么做?https://pytorch.org/text/stable/data_functional.html API文档中没有列出。
1条答案
按热度按时间osh3o9ms1#
查看PyTorch中sentencepiece_numericalizer的代码,它看起来像这样(文档已删除):
注意对
sp_model.EncodeAsIds(line)
的调用。基于此,sp_model参数(与
load_sp_model
返回的参数相同)实际上是SentencePieceProcessor类的一个示例。浏览代码,有一个额外的DecodeIds
方法。有了上面的信息,我们可以将反函数写成
sentencepiece_numericalizer
这可以像下面这样使用: