Pandas，读取CSV，忽略额外逗号

s2j5cfk0 于 2022-12-15 发布在其他

关注(0)|答案(4)|浏览(170)

我正在阅读一个包含8列的CSV文件到Pandas Dataframe 中。最后一列包含一个错误消息，其中一些包含逗号。这导致文件读取失败，并显示错误ParserError: Error tokenizing data. C error: Expected 8 fields in line 21922, saw 9
有没有办法忽略第8个字段之后的所有逗号，而不必遍历文件并删除多余的逗号？
读取文件的代码：

import pandas as pd
df = pd.read_csv('C:\\somepath\\output.csv')

有效的生产线：

061AE,Active,001,2017_02_24 15_18_01,00006,1,00013,some message

失败的线路：

061AE,Active,001,2017_02_24 15_18_01,00006,1,00013,longer message, with commas

csv

来源：https://stackoverflow.com/questions/48668125/pandas-read-csv-ignoring-extra-commas

4条答案

按热度按时间

gg0vcinb1#

您可以在read_csv函数中使用参数usecols来限制读入的列。例如：

import pandas as pd
pd.read_csv(path, usecols=range(8))

如果您只想读取前8列。

赞(0）回复(0）举报 2022-12-15

sbdsn5lh2#

您可以使用re.sub将前几个逗号替换为'|'，将中间结果保存在StringIO中，然后进行处理。

import pandas as pd
from io import StringIO
import re

for_pd = StringIO()
with open('MikeS159.csv') as mike:
    for line in mike:
        new_line = re.sub(r',', '|', line.rstrip(), count=7)
        print (new_line, file=for_pd)

for_pd.seek(0)

df = pd.read_csv(for_pd, sep='|', header=None)
print (df)

我将问题中的两行放入一个文件中以获得此输出。

0       1  2                    3  4  5   6  \
0  061AE  Active  1  2017_02_24 15_18_01  6  1  13   
1  061AE  Active  1  2017_02_24 15_18_01  6  1  13   

                             7  
0                 some message  
1  longer message, with commas

赞(0）回复(0）举报 2022-12-15

wribegjk3#

您可以在Pandas issues page上发布的此环形交叉路口进行拍摄：

import csv
import pandas as pd
import numpy as np

df = pd.read_csv('filename.csv', parse_dates=True, dtype=Object, delimiter="\t", quoting=csv.QUOTE_NONE, encoding='utf-8')

您还可以对数据进行预处理，基本上将所有前7个逗号（0到6，包括0和6）改为分号，并将其后的逗号保留为逗号 *，使用如下代码：

to_write = []
counter = 0
with open("sampleCSV.csv", "r") as f:
    for line in f:
        while counter < 7:
            line = list(line)
            line[line.index(",")] = ";"
            counter += 1
        counter = 0
        to_write.append("".join(line))

现在可以将此to_write列表作为Pandas对象读取，如下所示

data = pd.DataFrame(to_write)
data = pd.DataFrame(data[0].str.split(";").values.tolist()),

或者将其写回到CSV中并使用带有分号分隔符的Pandas（panda）（例如read_csv(csv_path, sep=';')）来读取。
我没有经过严格的测试就很快的起草了这个，但是应该给予你一些想法去尝试。如果有用或者没用，请评论，我会编辑它。

另一个选择是删除7号之后的所有逗号，并继续使用逗号分隔符。无论哪种方式，关键是要区分前7个分隔符和后面的标点符号。

赞(0）回复(0）举报 2022-12-15

ih99xse14#

to join @Tblaz answer如果您使用GoogleColab，您可以使用此解决方案，在我的情况下，额外的逗号位于第24列，因此我只需读取23列：

import pandas as pd
from google.colab import files
import io
uploaded = files.upload()
x_train = pd.read_csv(io.StringIO(uploaded['x_train.csv'].decode('utf-8')), skiprows=1, usecols=range(23) ,header=None)

赞(0）回复(0）举报 2022-12-15

我来回答

Pandas，读取CSV，忽略额外逗号

4条答案

相关问题

热门标签

最新问答