我真的很绝望,我只是不能用R中的word2vec包和任何(!)预先训练的嵌入模型(作为bin文件)重现king - man + woman = queen的所谓经典示例。如果有人能提供工作代码来重现这个例子,我将非常感激......包括一个链接到必要的预训练模型,这也是可下载的(许多是不!)非常感谢!
word2vec
bin
king - man + woman = queen
1cosmwyk1#
你还没有展示你尝试过哪些预训练模型,也没有展示你在尝试中使用了哪些数据,没有展示你使用了哪些训练后探测的代码,也没有展示你的尝试是如何失败的,所以如果不给你写一个完整的教程,你很难得到帮助. -....网上已经有很多word 2 vec教程了。但请注意:
man : king :: woman : queen
text8
text9
GoogleNews
1条答案
按热度按时间1cosmwyk1#
你还没有展示你尝试过哪些预训练模型,也没有展示你在尝试中使用了哪些数据,没有展示你使用了哪些训练后探测的代码,也没有展示你的尝试是如何失败的,所以如果不给你写一个完整的教程,你很难得到帮助. -....网上已经有很多word 2 vec教程了。
但请注意:
man : king :: woman : queen
类比解决方案text8
数据集)在man : king :: woman : queen
上通常会成功或接近成功,尽管相关的1GB数据的text9
往往做得更好,谷歌大约在2013年发布的GoogleNews
向量,据说是在大约100 GB的新闻文章上训练的,与最初的word 2 vec论文同时发布。text8
&text9
数据集可能需要被分块以传递到要求训练文本适合于特定限制的一些Word 2 vec实现。例如,Python的Gensim希望每个训练文本不超过10000个token,text8
是一行1700万个单词。如果将这一行1700万个标记作为一个训练文本传递给Gensim,其中99.94%将被忽略,因为它们超过了10000个标记的限制,您的R实现可能有类似的甚至更严格的实现限制。