pandas动态识别标题行-合并多个xlsx文件

brjng4g3 于 2023-09-29 发布在其他

关注(0)|答案(3)|浏览(92)

我有10个Excel工作表，每个工作表预计相同的标题/列名。
文件名为ABC.xlsx、DEF_123.xlsx等。excel文件名中没有命名通配符模式。
我的问题是，一些Excel文件的标题出现在第一行本身。而对于一些Excel文件，它可能出现在第2行（第1行是空的），对于一些文件，它可能出现在第5行（前4行是空的）。
我的目标是做到以下几点
a）将来自每个excel文件的数据组合/垂直堆叠到一个 Dataframe 中
所以，我尝试了下面的

record_counts = []
dfs=[]
folder_path = Path.cwd()
filenames = sorted(glob.glob(str(folder_path)+"\*.xlsx"))

for f in filenames:
    filename = os.path.basename(f)
    df = pd.read_excel(filename, header=None)
    header_row = 0
    if df.iloc[0].isna().all():
        header_row = 1
    df = pd.read_excel(filename, header=header_row)
    count = len(df.index)
    record_counts.append(count)
    dfs.append(df)
combined_df = pd.concat(dfs, ignore_index=True)

但是上面的代码假设标题出现在第一行（第0个位置）。如果不是，那么我们看第一位置（第二行）。但这是硬编码。
我如何识别标题动态出现的行并从那里获取数据？

pandas

来源：https://stackoverflow.com/questions/77139790/pandas-dynamically-identify-header-row-combine-multiple-xlsx-files

3条答案

按热度按时间

mu0hgdu01#

你需要的只是一个正确的逻辑来识别第一个非空行：

record_counts = []
dfs=[]
folder_path = Path.cwd()
filenames = sorted(glob.glob(str(folder_path)+"\*.xlsx"))

for f in filenames:
    filename = os.path.basename(f)
    df = pd.read_excel(filename, header=None)
    
    # Identify the header row as the first non-empty row
    header_row = df.apply(lambda row: row.notnull().any(), axis=1).idxmax()

    # Set the selected row as the header
    df.columns = df.iloc[header_row]

    # Drop the rows before the header row
    df = df.iloc[header_row + 1:]
    dfs.append(df)
combined_df = pd.concat(dfs, ignore_index=True)

赞(0）回复(0）举报 2023-09-29

kq0g1dla2#

试试这个：

import os
import glob
from pathlib import Path
import pandas as pd

record_counts = []
dfs = []
folder_path = Path.cwd()
filenames = sorted(glob.glob(str(folder_path) + "/*.xlsx"))

def find_header_row(df):
    for i, row in df.iterrows():
        if 'ColumnName' in row.values:  
            return i
    return 0

for f in filenames:
    filename = os.path.basename(f)
    df_temp = pd.read_excel(f, header=None)
    header_row = find_header_row(df_temp)
    
    df = pd.read_excel(f, header=header_row)
    count = len(df.index)
    record_counts.append(count)
    dfs.append(df)
    
combined_df = pd.concat(dfs, ignore_index=True)

赞(0）回复(0）举报 2023-09-29

vom3gejh3#

我设法找到了另一种方法来解决这个问题，通过识别first valid index

for f in filenames:
    filename = os.path.basename(f)
    df = pd.read_excel(filename,header=None,sheet_name='Sheet1')
    header_row = df.apply(lambda x: x.first_valid_index()).min()
    df = pd.read_excel(filename, header=header_row,sheet_name='Sheet1')
    count = len(df.index)
    record_counts.append(count)
    print(f"{filename}: {count} records")
    dfs.append(df)

这帮助我确定了第一个非空行

赞(0）回复(0）举报 2023-09-29

我来回答

pandas动态识别标题行-合并多个xlsx文件

3条答案

相关问题

热门标签

最新问答