pandas读取在列中带有额外逗号的csv

c7rzv4ha 于 2023-04-27 发布在其他

关注(0)|答案(5)|浏览(199)

我正在阅读一个基本的csv文件，其中的列用逗号分隔，列名称如下：
userid, username, body
然而，body列是一个可能包含逗号的字符串。显然这会导致一个问题，pandas会抛出一个错误：
CParserError: Error tokenizing data. C error: Expected 3 fields in line 3, saw 8
有没有一种方法可以告诉pandas忽略特定列中的逗号，或者有没有一种方法可以解决这个问题？

csv

来源：https://stackoverflow.com/questions/32743479/pandas-read-csv-with-extra-commas-in-column

5条答案

按热度按时间

7ajki6be1#

假设我们正在阅读名为comma.csv的 Dataframe ：

userid, username, body
01, n1, 'string1, string2'

您可以做的一件事是指定列中字符串的分隔符：

df = pd.read_csv('comma.csv', quotechar="'")

在这种情况下，由'分隔的字符串被认为是total，无论它们内部是否有逗号。

赞(0）回复(0）举报 2023-04-27

nhhxz33t2#

将usecols和linetimator添加到read_csv（）函数中，其中n是列的len。
在我的例子中：

n = 5 #define yours
df = pd.read_csv(file,
                 usecols=range(n),
                 lineterminator='\n',
                 header=None)

赞(0）回复(0）举报 2023-04-27

4si2a6ki3#

对我来说，上面的代码示例都不起作用（我在Kaggle上处理Netflix Prize数据集），但实际上pandas版本1.3.0+有一个很酷的功能，它是一个on_bad_lines参数，可以让你使用回调函数。下面是我所做的：

def manual_separation(bad_line):
    right_split = bad_line[:-2] + [",".join(bad_line[-2:])] # All the "bad lines" where all coming from the same last column that was containing ","
    return right_split

filename = "netflix_movie_titles.csv"
df = pd.read_csv(
        filename, 
        header=None,
        encoding="ISO-8859-1",
        names = ['Movie_Id', 'Year', 'Name'], 
        on_bad_lines=manual_separation,
        engine="python",
    )

工作起来很有魅力！你唯一的义务就是使用engine=python。希望对你有帮助！

赞(0）回复(0）举报 2023-04-27

wvmv3b1j4#

这个有用吗

import csv
with open("csv_with_commas.csv", newline='', encoding = 'utf8') as f:
    csvread = csv.reader(f)
    batch_data = list(csvread)
    print(batch_data)

参考文献：
[1][https://stackoverflow.com/a/40477760/6907424](https://stackoverflow.com/a/40477760/6907424)
[2]为了解决“UnicodeDecodeError：“charmap”编解码器无法解码位置157中的字节0x8f：字符Map到undefined”：https://stackoverflow.com/a/9233174/6907424

赞(0）回复(0）举报 2023-04-27

t9aqgxwy5#

首先，我没有找到任何东西来解决“comma inside qoutes，issue”系统和正确。pandas=1.5.3无法正确解析它。尝试指定参数，如qoutechar，quoting，escapechar，linetimator，...
最后，利用我知道逗号只能在最后一列的优势，找到了两个变通的解决方案

userid, username, body
1, Joe, string1
2, Jim, "string21, string22"

如果您不介意第三个逗号后的部分丢失，请指定列数

pd.read_csv(r'c:\TEMP\to_parse.csv',usecols=range(3))

从而产生

userid  username        body
0       1       Joe     string1
1       2       Jim   "string21

第二种解决方法更复杂，但它会产生带逗号的完整字符串。原理是用分号替换前2个逗号（您必须知道列数）

with open(path, 'r') as f:
    fo = io.StringIO()
    data = f.readlines()
    fo.writelines(u"" + line.replace(';', ':').replace(',', ';', 2) for line in data)
    fo.seek(0)
df = pd.read_csv(fo, on_bad_lines='warn', sep=';')

也许它也可以通过regex来实现。

赞(0）回复(0）举报 2023-04-27

我来回答

pandas读取在列中带有额外逗号的csv

5条答案

相关问题

热门标签

最新问答