ludwig 如何使用其他语言与BERT编码器一起工作

l5tcr1uw 于 5个月前发布在其他

关注(0)|答案(4)|浏览(63)

使用案例：

是否可以使用其他语言与Bert编码器一起使用？

解决方案：

类似于以下内容：

input_features:
 -
  name: text
  type: text
  encoder: bert
  config_path: ./bert/bert_config.json
  checkpoint_path: ./bert/bert_model.ckpt
  do_lower_case: False
  preprocessing:
    tokenizer: bert
    vocab_file: ./bert/vocab.txt
    padding_symbol: '[PAD]'
    unknown_symbol: '[UNK]'
  word_format: portuguese_tokenize
  level: word

来源：https://github.com/ludwig-ai/ludwig/issues/619

4条答案

按热度按时间

如果你下载了BERT的多语言版本(来自https://github.com/google-research/bert),你可能可以直接使用它(tokenizer: bert)。你能试一下吗？并告诉我们结果如何？

赞(0）回复(0）举报 5个月前

网页上说，如果你下载了Cased版本，你应该能够在没有任何代码更改的情况下运行多语言模型。

赞(0）回复(0）举报 5个月前

如果你要加载一个预训练的BERT模型，你需要使用相应的BERT分词器，否则它将无法正常工作。鉴于此，正如@msaisumanth所说，你可以使用BERT的多语言版本，以及它们各自的分词器词汇表。

赞(0）回复(0）举报 5个月前

首先，感谢大家的及时回复！
我会按照@msaisumanth的建议去做，并告知大家。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前