使用案例:
是否可以使用其他语言与Bert编码器一起使用?
解决方案:
类似于以下内容:
input_features:
-
name: text
type: text
encoder: bert
config_path: ./bert/bert_config.json
checkpoint_path: ./bert/bert_model.ckpt
do_lower_case: False
preprocessing:
tokenizer: bert
vocab_file: ./bert/vocab.txt
padding_symbol: '[PAD]'
unknown_symbol: '[UNK]'
word_format: portuguese_tokenize
level: word
4条答案
按热度按时间uttx8gqw1#
如果你下载了BERT的多语言版本(来自https://github.com/google-research/bert),你可能可以直接使用它(
tokenizer: bert
)。你能试一下吗?并告诉我们结果如何?vecaoik12#
网页上说,如果你下载了Cased版本,你应该能够在没有任何代码更改的情况下运行多语言模型。
xzabzqsa3#
如果你要加载一个预训练的BERT模型,你需要使用相应的BERT分词器,否则它将无法正常工作。鉴于此,正如@msaisumanth所说,你可以使用BERT的多语言版本,以及它们各自的分词器词汇表。
llew8vvj4#
首先,感谢大家的及时回复!
我会按照@msaisumanth的建议去做,并告知大家。