pandas 在Python中将多列标题df从宽格式转换为长格式

zdwk9cvp 于 2023-04-28 发布在 Python

关注(0)|答案(2)|浏览(128)

我想将Excel文件从宽格式转换为长格式。
我正在阅读一个excel文件，它不仅有两行标题，而且在标题中还包括合并的单元格。

| Task | Name | May,2022  | Jun,2022  | Jul,2022  |
|      |      |status|type|status|type|status|type|
| ---- | ---- |------|----|------|----|------|----|
| 1    | Tom  |1     |AB  |1     |DT  |0     |AB  | 
| 2    | John |0     |DT  |1     |CC  |0     |GH  |

预期输出：
| 任务|姓名|日期|地位|类型|
| --------------|--------------|--------------|--------------|--------------|
| 1|汤姆|2022年5月|1|AB|
| 1|汤姆|2022年6月|1|DT|
| 1|汤姆|2022年7月|0|AB|
| 二|约翰|2022年5月|0|DT|
| 二|约翰|2022年6月|1|CC|
| 二|约翰|2022年7月|0|生长激素|
我有什么：

import pandas as pd
df = pd.read_excel(path)
df = df.melt(id_vars=["Task","Name"],
     var_name="Date",
     value_name="Value")

我不知道如何处理多标题。我试着合并两个标题。

import pandas as pd
df = pd.read_excel(path, header[1,2])
df.columns = df.columns.to_series().ffill().values
df.columns.value[0]='Task'
df.columns.value[1]='Name'
df = df.melt(id_vars=["Task","Name"],
     var_name="Date",
     value_name="Value")

这将导致类似于：（我对日期转换很满意）
| 任务|姓名|（2022-05-01 00：00：00，状态）|（2022-05-01 00：00：00，类型）|
| --------------|--------------|--------------|--------------|
| 1|汤姆|1|AB|
| 二|约翰|0|DT|
melt函数返回一个KeyError 'Task'。即使这可以工作，我也需要以某种方式将日期从状态中分离出来，并输入到单独的列中。有人知道如何处理这样的数据吗？

pandas

来源：https://stackoverflow.com/questions/76100739/converting-multi-column-header-df-from-wide-to-long-format-in-python

2条答案

按热度按时间

pw9qyyiw1#

您可以使用set_index来保留Task和Name列，然后使用stackDate列，最后使用reset_index来获得预期的输出：

>>> (df.set_index(['Task', 'Name']).rename_axis(columns=['Date', None])
       .stack(level=0).reset_index())

   Task  Name      Date  status type
0     1   Tom  Jul,2022       0   AB
1     1   Tom  Jun,2022       1   DT
2     1   Tom  May,2022       1   AB
3     2  John  Jul,2022       0   GH
4     2  John  Jun,2022       1   CC
5     2  John  May,2022       0   DT

最小可重现示例：

data = {'index': [0, 1],
        'columns': [('Task', ''),
         ('Name', ''),
         ('May,2022', 'status'),
         ('May,2022', 'type'),
         ('Jun,2022', 'status'),
         ('Jun,2022', 'type'),
         ('Jul,2022', 'status'),
         ('Jul,2022', 'type')],
        'data': [[1, 'Tom', 1, 'AB', 1, 'DT', 0, 'AB'],
                 [2, 'John', 0, 'DT', 1, 'CC', 0, 'GH']],
        'index_names': [None],
        'column_names': [None, None]}
df = pd.DataFrame.from_dict(data, orient='tight')

赞(0）回复(0）举报 2023-04-28

rkkpypqq2#

首先在index和columns中为MulitIndex添加index_col和header：

df = pd.read_excel(path, index_col=[0,1], header=[0,1])

print (df.index)
MultiIndex([(1,  'Tom'),
            (2, 'John')],
           names=['Task', 'Name'])

print (df.columns)
MultiIndex([('May,2022', 'status'),
            ('May,2022',   'type'),
            ('Jun,2022', 'status'),
            ('Jun,2022',   'type'),
            ('Jul,2022', 'status'),
            ('Jul,2022',   'type')],
           names=['Task', None])

因此，可以将DataFrame.stack与DataFrame.rename_axis和DataFrame.reset_index一起使用：

out = df.stack(0).rename_axis(('Task','Name','Date')).reset_index()
print (out)
   Task  Name      Date  status type
0     1   Tom  Jul,2022       0   AB
1     1   Tom  Jun,2022       1   DT
2     1   Tom  May,2022       1   AB
3     2  John  Jul,2022       0   GH
4     2  John  Jun,2022       1   CC
5     2  John  May,2022       0   DT

赞(0）回复(0）举报 2023-04-28

我来回答

pandas 在Python中将多列标题df从宽格式转换为长格式

2条答案

相关问题

热门标签

最新问答