gensim 完全支持在Word2Vec模型中增量更新词汇表

eh57zj3b  于 4个月前  发布在  其他
关注(0)|答案(4)|浏览(58)

目前,Word2Vec模型中的词汇表更新还处于实验阶段。基于这里的讨论解决这个问题将对其他地方有所帮助,例如为sklearn-API类的Word2Vec添加partial_fit()功能。

46scxncf

46scxncf2#

在我看来,要使这个方法不属于实验性研究,需要对数据集的类型和特定设置进行一些重要的研究,以确定在哪些方面具有优势,以及在哪些方面只是花费时间而几乎没有或负面收益。增量训练是否改善这种模型本质上是非常依赖于上下文的。
(就我个人而言,我期望一个系统,其中所有现有的词/权重都被冻结,新的词向量通过类似于Doc2Vec推断的过程得出,这是一种更稳定/可辩护/抗错误的方法。)

uttx8gqw

uttx8gqw3#

是的,这里有两个方向:1)使其成为可能;2)确定它是否有意义。
#900 处理的是1);@gojomo正在谈论2)。
如果我们有1),我们可以将2)外包给所有询问(可能错误地)此功能的人。这是2vec最常请求的属性之一,这可能反映了许多应用程序中2vec的共同基本需求。

mu0hgdu0

mu0hgdu04#

我们有(1),这就是为什么我的重点在(2)。而(2)只有在我们完成大量研究/实验,或者成功从其他人那里收集到这些结果之后才可能实现。在此之前,我相信现有的(1)"它是可能的"功能需要很多免责声明,有效地阻止初学者依赖它。

相关问题