经典的king-man + woman = queen示例,使用预先训练的单词嵌入和R中的word 2 vec包

eqoofvh9  于 2022-12-20  发布在  其他
关注(0)|答案(1)|浏览(127)

我真的很绝望,我只是不能用R中的word2vec包和任何(!)预先训练的嵌入模型(作为bin文件)重现king - man + woman = queen的所谓经典示例。
如果有人能提供工作代码来重现这个例子,我将非常感激......包括一个链接到必要的预训练模型,这也是可下载的(许多是不!)
非常感谢!

1cosmwyk

1cosmwyk1#

你还没有展示你尝试过哪些预训练模型,也没有展示你在尝试中使用了哪些数据,没有展示你使用了哪些训练后探测的代码,也没有展示你的尝试是如何失败的,所以如果不给你写一个完整的教程,你很难得到帮助. -....网上已经有很多word 2 vec教程了。
但请注意:

  • word 2 vec是一种数据密集型算法,只有在使用足够大的训练集时,它的有用特性(包括类比求解能力)才真正变得可靠
  • 也就是说,当使用与原始工作相同类型的向量算术和候选答案排序(消除问题中的所有单词)时,来自胜任团队的大多数预训练模型应该很容易显示经典的man : king :: woman : queen类比解决方案
  • 如果我没记错的话,来自http://mattmahoney.net/dc/textdata的仅100 MB的未压缩文本text8数据集)在man : king :: woman : queen上通常会成功或接近成功,尽管相关的1GB数据的text9往往做得更好,谷歌大约在2013年发布的GoogleNews向量,据说是在大约100 GB的新闻文章上训练的,与最初的word 2 vec论文同时发布。
  • 不过,要注意:通过去除所有标点符号/换行符,text8&text9数据集可能需要被分块以传递到要求训练文本适合于特定限制的一些Word 2 vec实现。例如,Python的Gensim希望每个训练文本不超过10000个token,text8是一行1700万个单词。如果将这一行1700万个标记作为一个训练文本传递给Gensim,其中99.94%将被忽略,因为它们超过了10000个标记的限制,您的R实现可能有类似的甚至更严格的实现限制。

相关问题