我是新来的aws胶水和Spark。目前,我在jupytor笔记本中遇到了一个简单python脚本的问题。我想使用nltk包中的标记器。当我调用nltk.tokenize(“some string”)时,我得到一个错误:没有找到nltk\u数据,库建议我通过调用nltk.download('punkt')下载一些数据。每当我尝试这样做,我得到一个io异常。我怀疑从spark脚本访问本地文件系统是不常见的,因为它是分布式的,而且不能只有一个运行脚本的主机。那么,spark脚本是如何解决这个问题的呢?
暂无答案!
目前还没有任何答案,快来回答吧!