跨语言嵌入的功能请求
邮件列表线程: https://groups.google.com/forum/#!topic/gensim/zksGwKHnIUA
论文: http://aclweb.org/anthology/D15-1131
摘要: Trans-gram,一种简单且计算效率高的方法,用于同时学习并对齐多种语言的词嵌入,仅使用单语数据和较小的句子对齐数据集。我们使用新方法计算以英语为基准语言的21种语言的对齐词嵌入。我们展示了一些语言学特征在没有对齐数据的情况下跨越语言对齐,尽管这些属性在基准语言中不存在。我们还在标准跨语言文本分类和单词翻译任务上实现了最先进的结果。
2条答案
按热度按时间tsm1rwdh1#
这确实是一种简单易行的方法,可以实现词向量模型,无论语言如何,保持相似性,并且是跨语言模型的良好入门。
我轻松地做到这一点的方式是更新fast_sentence_sg的代码(事先更新以便处理对齐的句子)(在这里)。
如果模型可以访问对齐的语料库(通过直接更新类Word2Vec,那么我们只需要为对齐的句子添加一个新的循环,以便在特定窗口中更新翻译单词的向量,使其与前一个窗口中的单词相同。
论文链接错误:http://aclweb.org/anthology/D15-1131
yqlxgs2m2#
感谢您的指正,链接已更新。