是否有Python模块来处理带节的csv文件？

w1e3prcc 于 2023-04-09 发布在 Python

关注(0)|答案(3)|浏览(127)

我看到越来越多的csv文件包含多个部分，每个部分都包含自己的表。例如，来自10XGenomics的这个文件：

[gene-expression]
reference,/path/to/transcriptome

[libraries]
fastq_id,fastqs,feature_types
gex1,/path/to/fastqs,Gene Expression
mux1,/path/to/fastqs,Multiplexing Capture

[samples]
sample_id,cmo_ids
sample1,CMO301
sample2,CMO303

有时候，节标题甚至嵌入在它们自己的行中，例如。

[gene-expression],,
reference,/path/to/transcriptome,
[libraries],,
fastq_id,fastqs,feature_types
gex1,/path/to/fastqs,Gene Expression
mux1,/path/to/fastqs,Multiplexing Capture
[samples],,
sample_id,cmo_ids,
sample1,CMO301,
sample2,CMO303,

有没有一个Python模块可以直接处理这种划分？我找不到如何用Pandas或csv模块来做这件事。例如，从上面的两个例子中，我希望得到一个每节一个条目的字典，然后是每个节的列表列表。
有些部分有头，如果这也能被处理就好了，例如类似于csv.DictReader。
虽然编写一个可以解析这个特定示例的解决方案并不是特别困难，但是产生一些在一般情况下工作的东西要困难得多，例如，解析一个简单的csv文件很容易用split完成，但是csv模块是400多行Python，还有更多的C行，所以我真正在这里寻找的是一个模块来处理这个问题。
PS：this question是相关的，但不幸的是，答案并没有解决csv解析器的问题

csv

来源：https://stackoverflow.com/questions/75946683/is-there-a-python-module-to-handle-csv-files-with-sections

3条答案

按热度按时间

0md85ypi1#

你可以使用configparser模块来读取你的文件：

from configparser import ConfigParser
import io
import pandas as pd

cfg = ConfigParser(allow_no_value=True)
cfg.optionxform = str
cfg.read('data.csv')

dfs = {}
for section in cfg.sections():
    buf = io.StringIO()
    buf.writelines('\n'.join(row.rstrip(',') for row in cfg[section]))
    buf.seek(0)
    dfs[section] = pd.read_csv(buf)

输出：

>>> dfs['gene-expression']
Empty DataFrame
Columns: [reference, /path/to/transcriptome]
Index: []

>>> dfs['libraries']
  fastq_id           fastqs         feature_types
0     gex1  /path/to/fastqs       Gene Expression
1     mux1  /path/to/fastqs  Multiplexing Capture

>>> dfs['samples']
  sample_id cmo_ids
0   sample1  CMO301
1   sample2  CMO303

现在你也可以只想提取一个部分：

cfg = ConfigParser(allow_no_value=True)
cfg.optionxform = str
cfg.read('data.csv')

def read_data(section):
    buf = io.StringIO()
    buf.writelines('\n'.join(row.rstrip(',') for row in cfg[section]))
    buf.seek(0)
    return pd.read_csv(buf)

df = read_data('samples')

输出：

>>> df
  sample_id cmo_ids
0   sample1  CMO301
1   sample2  CMO303

赞(0）回复(0）举报 2023-04-09

1u4esq0p2#

下面是使用pandas处理 * 两种格式 * 的建议：

import pandas as pd
    
df = (pd.read_fwf("input.txt", header=None, names=["data"])
        .assign(section=lambda x: x["data"].str.extract("\[(.*)\]").ffill())
)

d_dfs = { # type hint: Dict[str, pd.DataFrame]
    k: (g.iloc[1:,0].str.split(",", expand=True)
           .pipe(lambda df_: 
              df_.rename(columns=df_.iloc[0])
                 .drop(df_.index[0])))
    for k, g in df.groupby('section')
}

输出：

>>> print(d_dfs["libraries"])

  fastq_id           fastqs         feature_types
4     gex1  /path/to/fastqs       Gene Expression
5     mux1  /path/to/fastqs  Multiplexing Capture

>>> print(d_dfs["samples"])

  sample_id cmo_ids
8   sample1  CMO301
9   sample2  CMO303

赞(0）回复(0）举报 2023-04-09

wd2eg0qa3#

对于csv标准库模块，使用itertools.groupby()来处理解析文件是相当容易的：

import csv
import io
import itertools

s = """\
[gene-expression]
reference,/path/to/transcriptome

[libraries]
fastq_id,fastqs,feature_types
gex1,/path/to/fastqs,Gene Expression
mux1,/path/to/fastqs,Multiplexing Capture

[samples]
sample_id,cmo_ids
sample1,CMO301
sample2,CMO303
"""

def is_header(l):
    return l.strip().startswith("[") and l.strip().endswith("]")

f = io.StringIO(s)
grouped = itertools.groupby(f, is_header)

try: 
    while True:
        _, header = next(grouped)
        header = list(csv.reader(header))[-1][0]
        _, section = next(grouped)
        section = list(csv.reader(section))

        print(header)
        print(section)
        
except StopIteration:
    pass

如果你有Python 3.10或更高版本，你可以将itertools.groupby()和itertools.pairwise()结合使用，这会使这变得更简单：

s = """\
[gene-expression]
reference,/path/to/transcriptome

[libraries]
fastq_id,fastqs,feature_types
gex1,/path/to/fastqs,Gene Expression
mux1,/path/to/fastqs,Multiplexing Capture

[samples]
sample_id,cmo_ids
sample1,CMO301
sample2,CMO303
"""

import csv
import io
import itertools

f = io.StringIO(s)

def is_header(l):
    return l.strip().startswith("[") and l.strip().endswith("]")
    
grouped = itertools.groupby(f, is_header)
paired = itertools.pairwise(list(g) for k, g in grouped)

data = {header[-1].strip("[]\n"): list(csv.reader(section)) for header, section in paired}
print(data)

赞(0）回复(0）举报 2023-04-09

我来回答

是否有Python模块来处理带节的csv文件？

3条答案

相关问题

热门标签

最新问答