在空腔环境中安装nltk数据

jhkqcmku 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(403)

我想通过pyspark在hadoop集群上利用nltk执行nlp任务。我们使用水蟒分布。群集处于空气间隙环境中，因此我无法运行 nltk.download() .
我想我需要把数据下载到可以上网的辅助机器上。从哪里下载？如何在hadoop集群上安装它？我只是复制文件吗？或者nltk需要知道数据在哪里？是否需要在所有节点上复制数据？

hadoop python anaconda nltk

来源：https://stackoverflow.com/questions/41514516/install-nltk-data-in-airgapped-environment

1条答案

按热度按时间

yruzcnhs1#

从哪里下载？
你可以执行 nltk.download() 在您的计算机上，数据将下载到您的主目录下的文件夹 nltk_data 如何在hadoop集群上安装它？我只是复制文件吗？或者nltk需要知道数据在哪里？
如果你抄这本书就足够了 nltk_data 到计算机上执行进程的用户下的主文件夹。如果不可能，可以使用 NLTK_DATA 用于设置位置的环境变量。查看如何从代码中配置nltk数据目录？更多关于这个的讨论
是否需要在所有节点上复制数据？
对

赞(0）回复(0）举报 2021-05-29

我来回答

在空腔环境中安装nltk数据

1条答案

相关问题

热门标签

最新问答