textract ``` UnicodeDecodeError: 'cp949' codec can't decode bytes ```

wgmfuz8q 于 5个月前发布在其他

关注(0)|答案(3)|浏览(97)

我遇到了一些特定类型的rtf文件时出现了这个错误。
堆栈跟踪：
文件 "/Library/Python/2.7/site-packages/textract/parsers/init.py",第57行，在process函数中
return parser.process(filename, encoding, **kwargs)
文件 "/Library/Python/2.7/site-packages/textract/parsers/utils.py",第45行，在process函数中
unicode_string = self.decode(byte_string)
文件 "/Library/Python/2.7/site-packages/textract/parsers/utils.py",第64行，在decode函数中
return text.decode(result['encoding'])
例如，附上的rtf文件(压缩)
PARTNERSHIP INTEREST PURCHASE AGREEMENT.rtf.zip

来源：https://github.com/deanmalmgren/textract/issues/107

3条答案

按热度按时间

感谢您提供示例！我非常确定这是一个chardet版本问题。当我成功从您的文件中提取文本时，我能够pip install chardet==2.1.1。我将把chardet固定到那个版本，直到问题得到解决；希望这能解决您的问题！

赞(0）回复(0）举报 5个月前

令人失望。将chardet回滚到2.1.1版本可以与py2一起使用，但与py3不兼容。我将保持这个问题开放，直到chardet/chardet#98问题得到解决。在这段时间里，这个问题将作为py2用户的解决方案的文档。

赞(0）回复(0）举报 5个月前

我遇到了相同的错误，在我的Ubuntu上。我只是安装了这个sudo apt install unoconv,并使用这个工具将doc转换为docx(使用了异常处理)。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前