Sentencepiece with pre-defined vocabulary

bxfogqkk 于 4个月前发布在其他

关注(0)|答案(6)|浏览(132)

你能解释一下是否可以在预定义的词汇表上初始化sentencepiece算法吗？如果不可以，那么这将是一个非常有用的选项。

来源：https://github.com/google/sentencepiece/issues/571

6条答案

按热度按时间

你能详细说明你的请求吗？

"initialize"意味着我们使用预定义的词汇表训练spm模型吗？还是只在分割时间中输入预定义的词汇表？

前者在unigram模式下技术上是可能的，但尚未实现。

对于后一个请求，你可以使用set_vocabulary方法来限制词汇表。然而，预定义的词汇表必须是默认词汇表的子集。

如果你真的要覆盖词汇表，你可以重写mode文件目录，但这是高级用法，风险自负。

赞(0）回复(0）举报 5个月前

我有一个类似的问题，可能几乎相同。在一些利用句子片段模型的后续下游处理[ASR,MT等]中，分割词汇通常被纳入模型。然而，如果句子片段模型丢失，就无法再与下游ASR模型进行适应。作为一个具体的例子：

我有一个使用大量数据训练的espnet ASR模型
我意外地覆盖了(删除)了句子片段模型
我还拥有词汇表和工作espnet模型，它包含了来自原始句子片段模型的词汇表列表
我还有所有的文本训练数据-但重新训练产生了一个相似但不完全相同的模型(8002个词片对8000个目标词片)

能够使用现有espnet模型中的确切、固定词汇重新训练句子片段模型将会非常酷且有用，因为这将节省从头开始重新训练ASR模型所需的时间。

赞(0）回复(0）举报 5个月前

我认为，@AdolfVonKleist的示例非常有用。就我理解而言，@vladmosin的问题是：由于sentencepiece从一些词汇开始裁剪，因此可能有用的一个选项是允许将预定义的给定词汇传递给sentencepiece。

赞(0）回复(0）举报 5个月前

严格来说，仅从词汇表中是无法复制出相同的结果的。BPE和unigram语言模型为每个标记管理分数。无论如何，这个分数都无法复制。
如果你使用的是unigram语言模型，那么分数基本上与unigram负对数概率相同。不确定如何复制BPE的分割。

赞(0）回复(0）举报 5个月前

有人能帮我吗？我应该熟悉哪些技术栈，才能为Azure做出贡献？
我想为了职业发展和更积极地参与开源项目学习更多的东西。

赞(0）回复(0）举报 5个月前

"initialize"意味着我们使用预定义的词汇表训练spm模型吗？还是在分割时间中仅提供预定义的词汇表？前者在单字模式下从技术上是可行的，但尚未实现。
@taku910 这个功能已经实现了吗？或者有任何关于如何实现这个功能的提示吗？我有兴趣训练一个单字模型，使用预定义的词汇表，即在整个训练过程中都不会扩展或减少词汇量。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前