Python：回溯编解码器,charmap_decode(输入，自身错误，解码表)[0]

plupiseo 于 2022-12-01 发布在 Python

关注(0)|答案(3)|浏览(204)

以下是示例代码，目的只是合并文本文件从给定的文件夹和它的子文件夹。我得到Traceback偶尔，所以不知道在哪里看。还需要一些帮助，以增强代码，以防止空行被合并&显示没有行在合并/主文件。可能这是一个好主意，在合并文件之前，一些清理应该执行或只是忽略空行在合并过程中。
文件夹中的文本文件不超过1000行，但汇总主文件很容易超过10000+行。

import os
root = 'C:\\Dropbox\\ans7i\\'
files = [(path,f) for path,_,file_list in os.walk(root) for f in file_list]
out_file = open('C:\\Dropbox\\Python\\master.txt','w')
for path,f_name in files:
    in_file = open('%s/%s'%(path,f_name), 'r')

    # write out root/path/to/file (space) file_contents
    for line in in_file:
        out_file.write('%s/%s %s'%(path,f_name,line))
    in_file.close()

    # enter new line after each file
    out_file.write('\n')

with open('master.txt', 'r') as f:
  lines = f.readlines()
with open('master.txt', 'w') as f:
  f.write("".join(L for L in lines if L.strip())) 


Traceback (most recent call last):
  File "C:\Dropbox\Python\master.py", line 9, in <module> for line in in_file:
  File "C:\PYTHON32\LIB\encodings\cp1252.py", line  23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0]  
UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 972: character maps to <undefined>

python-3.x

来源：https://stackoverflow.com/questions/12213178/python-traceback-codecs-charmap-decodeinput-self-errors-decoding-table0

3条答案

按热度按时间

pdsfdshx1#

抛出这个错误是因为Python 3使用与内容不匹配的默认编码打开文件。
如果你所做的只是复制文件内容，最好使用shutil.copyfileobj()函数，同时以二进制模式打开文件。这样你就可以完全避免编码问题（当然，只要你所有的源文件都是 * 相同的编码 *，这样你就不会得到一个混合编码的目标文件）：

import shutil
import os.path

with open('C:\\Dropbox\\Python\\master.txt','wb') as output:
    for path, f_name in files:
        with open(os.path.join(path, f_name), 'rb') as input:
            shutil.copyfileobj(input, output)
        output.write(b'\n') # insert extra newline between files

我对代码进行了一些清理，以便使用上下文管理器（这样文件在完成时会自动关闭），并使用os.path创建文件的完整路径。
如果你需要逐行处理输入，你需要告诉Python应该使用什么编码，这样它才能将文件内容解码成python字符串对象：

open(path, mode, encoding='UTF8')

请注意，这要求您 * 预先 * 知道文件使用的编码。
如果您对python 3、文件和编码有更多问题，请阅读Python Unicode HOWTO。

赞(0）回复(0）举报 2022-12-01

gkn4icbw2#

我面临着类似的问题，而删除文件使用操作系统模块删除功能。
所需的变更包括：

file = open(filename)

至

file = open(filename, encoding="utf8")

添加编码=“utf-8”
UTF-8是最常用的编码之一，Python通常默认使用它。UTF代表“Unicode转换格式”，而“8”意味着在编码中使用8位值。.... UTF-8使用以下规则：如果码位〈128，则由相应的字节值表示。

赞(0）回复(0）举报 2022-12-01

ndh0cuux3#

使用文件处理来处理导入和解码错误

1.使用完整绝对路径打开文件
（源-文件夹目录的绝对路径，获取file_folder中的所有文件）

import os
file_list = os.listdir(source)
for file in file_list:
    absolute_file_path = os.path.join(source,file)    
    file = open(absolute_file_path)

1.打开时对文件进行编码
file = open(absolute_file_path, mode, encoding, errors=ignore)

赞(0）回复(0）举报 2022-12-01

我来回答

Python：回溯编解码器,charmap_decode(输入，自身错误，解码表)[0]

3条答案

使用文件处理来处理导入和解码错误

相关问题

热门标签

最新问答