我使用Pandas读取read_csv()
文件,其中字段由空格分隔。列数是固定的,但有几行不遵循模式。
到目前为止,我使用的解决方案是添加on_bad_lines='warn'
,它跳过它们并通知我有一条故障线。
这还可以,虽然有几行我可以单独看。不幸的是,这种线路的数量增加了。
我比较满意的解决方案是只加载10列:第9个总是很好(并且具有可预测的名称),第10个将该行的其余部分作为一列(称为“其他所有内容”)。
我在documentation for read_csv()
上来回看,但找不到正确的参数。有没有办法限制要读入的列数(包括最后一列和该行的其余部分)?
给你一些背景:我手上的文件
aaax bbb ccc ddd
mmmxxx nnn ooo ppp sjkhdkjsh skdjhsksdkskjdh ksjh sdkjsdh ksjdh
fffxx ggg hhh iii
我想检索每行四列,第四列将是(每行)
ddd
ppp sjkhdkjsh skdjhsksdkskjdh ksjh sdkjsdh ksjdh
iii
2条答案
按热度按时间kr98yfug1#
IIUC,您可以尝试在
read_csv
中设置 regex 作为分隔符:演示:[ Regex ]
输出量:
ffx8fchx2#
我谦卑的态度:
输出量: