allennlp 在预训练的Transformer分词器中执行batch_tokenize,

iibxawm4  于 6个月前  发布在  其他
关注(0)|答案(7)|浏览(76)

鉴于transformers库包含了更快的分词器,这些分词器在批处理中可能运行得更快,我认为我们可以在PretrainedTransformerTokenizer中实现batch_tokenize,这样它会调用batch_encode_plus

lymnna71

lymnna711#

听起来不错,PR欢迎。不过这是否需要等到我们更新对transformers的依赖?

tyu7yeag

tyu7yeag2#

它没有,因为接口是相同的。

inb24sb2

inb24sb23#

我并不确信新的分词器在批处理中能实现速度提升,但它测试起来很快。在投入时间之前,我想确保它是值得的。

zsbz8rwp

zsbz8rwp4#

从代码🤷‍♂️
https://github.com/huggingface/tokenizers/blob/11dd6c8baef9ae2b836d594215f14a208dbacfb2/tokenizers/src/tokenizer/mod.rs#L364

看起来是关于一个名为tokenizers的项目的代码。

p8ekf7hl

p8ekf7hl5#

多线程分词。我考虑到Amdahl's Law,但我也认为这可能是值得的,至少如果它没有API更改的话。

r6vfmomb

r6vfmomb6#

如果1)你的整个数据集可以放入内存(你也可以发送块),并且2)你整体进行分词,这将会产生很大的影响。

hpxqektj

hpxqektj7#

(你有很多核心...)

相关问题