ludwig 如何使用其他语言与BERT编码器一起工作

l5tcr1uw  于 5个月前  发布在  其他
关注(0)|答案(4)|浏览(64)

使用案例:

是否可以使用其他语言与Bert编码器一起使用?

解决方案:

类似于以下内容:

input_features:
 -
  name: text
  type: text
  encoder: bert
  config_path: ./bert/bert_config.json
  checkpoint_path: ./bert/bert_model.ckpt
  do_lower_case: False
  preprocessing:
    tokenizer: bert
    vocab_file: ./bert/vocab.txt
    padding_symbol: '[PAD]'
    unknown_symbol: '[UNK]'
  word_format: portuguese_tokenize
  level: word
uttx8gqw

uttx8gqw1#

如果你下载了BERT的多语言版本(来自https://github.com/google-research/bert),你可能可以直接使用它(tokenizer: bert)。你能试一下吗?并告诉我们结果如何?

vecaoik1

vecaoik12#

网页上说,如果你下载了Cased版本,你应该能够在没有任何代码更改的情况下运行多语言模型。

xzabzqsa

xzabzqsa3#

如果你要加载一个预训练的BERT模型,你需要使用相应的BERT分词器,否则它将无法正常工作。鉴于此,正如@msaisumanth所说,你可以使用BERT的多语言版本,以及它们各自的分词器词汇表。

llew8vvj

llew8vvj4#

首先,感谢大家的及时回复!
我会按照@msaisumanth的建议去做,并告知大家。

相关问题