python 我在下载nltk的punkt标记器时遇到问题

ruarlubt  于 2022-12-21  发布在  Python
关注(0)|答案(3)|浏览(729)

我正在尝试下载punkt,但遇到以下错误...

>>> import nltk
>>> nltk.download('punkt')
>>> [nltk_data] Error loading punkt: <urlopen error [SSL] unknown error
>>> [nltk_data]     (_ssl.c:590)>
>>> False
>>>

有人能帮帮我吗我已经试了好几天了...

0md85ypi

0md85ypi1#

我猜下载器脚本坏了。作为临时解决方案,可以从here手动下载punkt tokenizer,然后将解压缩的文件夹放在相应的位置。每个操作系统的默认文件夹是:

  • 窗口:C:\nltk_data\tokenizers
  • 操作系统X:x1个月1个月1个月
  • Unix:/usr/share/nltk_data/tokenizers

我不确定,但您可能会发现这个post很有帮助。

bzzcjhmw

bzzcjhmw2#

虽然这是个老问题,但今天我的mac也遇到了同样的问题,这里的解决方案帮我解决了这个问题。
编辑:
Run the following command on the OSX before running nltk.download():

/Applications/Python\ PYTHON_VERSION_HERE/Install\ Certificates.command
h9a6wy2h

h9a6wy2h3#

如果nltk.download()不适合您,下面是手动安装punkt的详细说明。

    • 背景**:我尝试使用nltk.word_tokenize(),但它抛出错误:
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load tokenizers/punkt/english.pickle

  Searched in:
    - 'C:\\Users\\username/nltk_data'
    - 'C:\\Users\\username\\anaconda3\\envs\\conda-env\\nltk_data'
    • 溶液**:手动下载软件包。
    • 第一步**:在http://www.nltk.org/nltk_data/中查找对应的语料库,如本例中为 * Punkt Tokenizer Models *;单击下载并存储在上面提到的文件夹之一(如果nltk_data文件夹不存在,请创建一个)。对我来说,我选择了"C:\Users\username/nltk_data"。
    • 步骤2**:注意它说"尝试加载tokenizers/punkt/english. pickle",这意味着您必须创建相同的文件夹结构。我在"nltk_data"中创建了"tokenizers"文件夹,然后复制其中解压缩的内容,并确保文件路径"C:/Users/username/nltk_data/tokenizers/punkt/english. pickle"有效。

相关问题